1、 计算机/行业专题报告/2025.01.19 请阅读最后一页的重要声明!大模型系列报告(一):Transformer 架构的过去、现在和未来 证券研究报告 投资评级投资评级:看好看好(维持维持)最近 12 月市场表现 分析师分析师 杨烨 SAC 证书编号:S0160522050001 相关报告 1.电力信息化研究框架:(一)总章 2025-01-14 2.英伟达 GB300 含苞待放,关注液冷和电源环节 2025-01-14 3.智驾月报:车市表现强劲,首个Robotaxi 法规出炉 2025-01-12 核心观点核心观点 Transformer 架构的过去和现在架构的过去和现在:人类大脑在有
2、限的资源条件下,通过神人类大脑在有限的资源条件下,通过神经元回路的自组装和微调,实现了高效的信息处理。为了优化信息处理,大经元回路的自组装和微调,实现了高效的信息处理。为了优化信息处理,大脑发展了高效的信息选择和投注机制脑发展了高效的信息选择和投注机制注意力,而非依赖超大容量的处理注意力,而非依赖超大容量的处理能力。能力。随着我们对大脑认知机制的深入了解以及计算机科学的进步,研究人员尝试通过算法量化大脑的认知功能,将人类的思维模式映射到人工智能上。Transformer 是一种基于注意力机制的神经网络架构,由是一种基于注意力机制的神经网络架构,由 Google Brain 团队团队于于 201
3、7 年在论文年在论文Attention Is All You Need中提出中提出。通过摒弃传统循环结通过摒弃传统循环结构,构,Transformer 利用自注意力机制并行处理序列元素,显著提升了训练速利用自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力。度和长距离依赖建模能力。Transformer 架构的灵活性,使其成为众多非自架构的灵活性,使其成为众多非自然语言处理领域先进模型构建的基础框架,展现出广阔的应用前景然语言处理领域先进模型构建的基础框架,展现出广阔的应用前景,包括但,包括但不限于不限于能够将不同模态的数据映射到统一的特征表示空间能够将不同模态的数据映射到统
4、一的特征表示空间,促进跨模态应用,促进跨模态应用发展发展。目前,人工智能大模型的进化主要依赖于人工版本的更新。而随着技术的发展,研究人员正在探索自我进化的模型,使其能够自主完善和学习由自身生成的经验,从而推动人工智能向更高级的智能发展。当前当前 AIAI 的局限性的局限性或在于其学习效率的低下,而非数据不足。真正的智能不仅是数据量的堆积,或在于其学习效率的低下,而非数据不足。真正的智能不仅是数据量的堆积,而是在于对信息的压缩和提炼,类似于通过总结第一性原理的方式获取更深而是在于对信息的压缩和提炼,类似于通过总结第一性原理的方式获取更深层次的智能。层次的智能。Transformer 架构的未来架
5、构的未来:尽管 Transformer 凭借着诸多优势成为如今的主流架构,但其并非尽善尽美,仍有无法避免的局限性,例如计算复杂度高和计算成本高。目前对 Transformer 架构的未来,主要有两条道路,一是被更优秀的全新架构替代,二是在原有架构基础上通过优化注意力机制等方式进行升级,这两条道路都是通往计算复杂度更低、计算成本更低、效率更高计算复杂度更低、计算成本更低、效率更高这个目标。目前研究人员正在积极探索可能取代或增强目前研究人员正在积极探索可能取代或增强 Transformer 的全新架构,的全新架构,并提出了数个并提出了数个潜在的潜在的替代架构替代架构,例如,例如 RetNet、Ma
6、mba、RWKV、Hyena、线、线性注意力机制等。性注意力机制等。无论选择哪条路径,最终的目标都是实现更高的性能、更强的泛化能力、更低的资源消耗,以推动 AI 在更多实际场景中的应用,同时让其更加可持续的普惠化的发展。投资建议:投资建议:短期来看,Transformer 架构依然是大模型的主流,建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创等,同时持续关注全球各大模型厂商、学界的创新进展。风险提示:风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支 持不及预期风险;全球宏观经济风险。-22%-10%