《2025大模型Transformer架构发展历程、优势及未来发展趋势分析报告(25页).pdf》由会员分享,可在线阅读,更多相关《2025大模型Transformer架构发展历程、优势及未来发展趋势分析报告(25页).pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、 2025 年深度行业分析研究报告 1 Transformer 架构的过去和现在架构的过去和现在.4 1.1 人脑带来的启示:数据的无损压缩人脑带来的启示:数据的无损压缩.4 1.2 Transformer 应运而生:应运而生:Attention is all you need.6 1.3 Transformer 的优势:规模扩展、多模态能力的优势:规模扩展、多模态能力.9 2 Transformer 架构的未来架构的未来.12 2.1 Transformer 架构的局限性架构的局限性.12 2.2 Transformer 架构的挑战者架构的挑战者.13 2.2.1 RetNet.14 2.2
2、.2 Mamba.16 2.2.3 RWKV(Receptance Weighted Key Value).18 2.2.4 Hyena.20 2.2.5 线性注意力机制线性注意力机制.21 2.3 架构展望:更低计算复杂度、更低成本、更高效率架构展望:更低计算复杂度、更低成本、更高效率.24 图图 1.大语言模型(大语言模型(LLMs)自进化概念框架图)自进化概念框架图.4 图图 2.大语言模型(大语言模型(LLMs)与大脑相似性估计框架的示意图)与大脑相似性估计框架的示意图.5 图图 3.大语言模型上不同提示添加策略与大脑相似性大语言模型上不同提示添加策略与大脑相似性.5 图图 4.大语言
3、模型在处理积极和消极情感文本时与大脑的相似性大语言模型在处理积极和消极情感文本时与大脑的相似性.5 图图 5.Transformer 模型架构模型架构.6 图图 6.注意力机制预测下一个词汇注意力机制预测下一个词汇.7 图图 7.缩放点积注意力(缩放点积注意力(Scaled Dot-Product Attention)原理和)原理和 Softmax 公式公式.8 图图 8.多头注意力(多头注意力(Multi-Head Attention)原理和)原理和 MHA 公式公式.9 图图 9.Transformer 和和 LSTM 在不同参数数量和上下文长度下的测试损失在不同参数数量和上下文长度下的测
4、试损失.10 图图 10.主流大模型参数量变化主流大模型参数量变化.10 图图 11.RNN/LSTM、CNN 和和 Transformer 在跨模态任务中的优势、劣势在跨模态任务中的优势、劣势.11 图图 12.Transformer 架构的计算复杂度过高来源于其自注意力机制架构的计算复杂度过高来源于其自注意力机制 Softmax Attention.12 图图 13.大模型参数量不断膨胀,已达大模型参数量不断膨胀,已达 1000B.13 内容目录 图表目录 kVaXhXtUmUqRnPbRbP7NsQpPtRsPlOnNmNfQoMmMaQpPuNvPsQoRuOmNpN 图图 14.谷歌
5、谷歌 CORE ML/AI 副总裁副总裁 Bill Jia 在在 2024 年硅谷华源科技年会上接受采访年硅谷华源科技年会上接受采访.14 图图 15.潜在的潜在的 Transformer 架构替代架构架构替代架构.14 图图 16.RetNet 的并行与循环过程的并行与循环过程.15 图图 17.RetNet 同时实现训练并行性、良好性能和低推理成本这一“不可能的三角”同时实现训练并行性、良好性能和低推理成本这一“不可能的三角”.16 图图 18.状态空间模型(状态空间模型(SSM)的架构示意图)的架构示意图.16 图图 19.RNNs、Transformers 和和 SSMs 在自回归序列
6、建模任务中的优缺点在自回归序列建模任务中的优缺点.17 图图 20.改进改进 Mamba 架构的现有研究总结(主要集中于修改块设计、扫描模式和记忆管理)架构的现有研究总结(主要集中于修改块设计、扫描模式和记忆管理).17 图图 21.RWKV-6 的的 token shift 计算流程计算流程.18 图图 22.RWKV-4、RWKV-5 Eagle 和和 RWKV-6 Finch 模型的上下文长度实验随版本迭代表现变好模型的上下文长度实验随版本迭代表现变好.19 图图 23.在在 RWKV-6Finch、Mamba 和和 Flash Attention 中,中,RWKV-6 的显存占用率最低
7、的显存占用率最低.19 图图 24.RWKV 基础模型的众多应用场景基础模型的众多应用场景.20 图图 25.Hyena 算子的结构和工作原理算子的结构和工作原理.21 图图 26.Softmax 注意力和线性注意力的计算流程注意力和线性注意力的计算流程.22 图图 27.Agent Attention 的计算流程的计算流程.23 图图 28.不同模型大小的不同模型大小的 Transformer 和和 TransNormer LLM 的最大上下文长度的最大上下文长度.23 图图 29.MiniMax-Text-01 的结构的结构.24 1 Transformer 架构的过去和现在架构的过去和现
8、在 1.1 人脑带来的启示:数据的无损压缩人脑带来的启示:数据的无损压缩 人类大脑的进化伴随着神经系统的复杂化,包括神经元数量、类型、连接方式以人类大脑的进化伴随着神经系统的复杂化,包括神经元数量、类型、连接方式以及大脑区域的扩展。及大脑区域的扩展。这些变化主要由基因的复制和分化驱动。大脑区域的模块化进化加速了这一过程,因为不同的模块可以独立进化。随着我们对大脑认知机制的深入了解以及计算机科学的进步,研究人员尝试通过算法量化大脑的认知功能,将人类的思维模式映射到人工智能上。目前,人工智能大模型的进化主要依赖于目前,人工智能大模型的进化主要依赖于人工版本的更新。而随着技术的发展,研究人员正在探索
9、自我进化的模型,使其人工版本的更新。而随着技术的发展,研究人员正在探索自我进化的模型,使其能够自主完善和学习由自身生成的经验,从而推动人工智能向更高级的智能发展。能够自主完善和学习由自身生成的经验,从而推动人工智能向更高级的智能发展。图1.大语言模型(LLMs)自进化概念框架图 数据来源:Zhengwei Tao 等论文A Survey on Self-Evolution of Large Language Models,财通证券研究所 注:概念框架图展示了大语言模型的进化目标(Evolution Objective),包括能力(Ability)和方向(Direction),以及自进化的 4
10、个阶段:1)经验获取(Experience Acquisition);2)经验精炼(Experience Refinement);3)更新(Updating);4)评估(Evaluation)。人类大脑在有限的资源条件下,通过神经元回路的自组装和微调,实现了高效的人类大脑在有限的资源条件下,通过神经元回路的自组装和微调,实现了高效的信息处理。为了优化信息处理,大脑发展了高效的信息选择和投注机制信息处理。为了优化信息处理,大脑发展了高效的信息选择和投注机制注意注意力,而非依赖超大容量的处理能力。通过集中有限的计算资源于重要任务上,注力,而非依赖超大容量的处理能力。通过集中有限的计算资源于重要任务
11、上,注意力机制使大脑能够迅速分析关键信息并做出决策。意力机制使大脑能够迅速分析关键信息并做出决策。在人工智能领域,受人类注意力机制的启发,研究者开发了“自注意力机制”(Self-Attention),用于处理序列数据,如自然语言中的文本。自注意力机制通过计算输入序列各部分之间的相似度,并为每个部分分配不同的权重,从而更加精准地理解句子含义。这种机制能够综合考虑输入的全面性和个别单词之间的相关性,提升对信息的理解能力。因因此,人工智能中的自注意力机制与人类大脑的注意力机制类似,都能在有限资源此,人工智能中的自注意力机制与人类大脑的注意力机制类似,都能在有限资源下高效地处理信息,并优化决策过程。下
12、高效地处理信息,并优化决策过程。图2.大语言模型(LLMs)与大脑相似性估计框架的示意图 数据来源:Yuqi Ren 等论文Do Large Language Models Mirror Cognitive Language Processing?,财通证券研究所 注:通过量化的方式,比较大语言模型和人类大脑在处理相同文本时的相似性,从而为研究 LLMs 的认知能力和语言处理机制提供一种方法和视角。“预测即压缩,压缩即智能”“预测即压缩,压缩即智能”。从神经科学的角度来看,人脑依然远远超过当前的大型语言模型(LLM)。尽管 LLM 的参数和连接数达到数万亿,但仍无法与人脑的复杂性相提并论。人类
13、大脑的进化依赖于选择和投注机制,以较低的容量实现更高效的信息处理。人工智能的注意力机制主要是基于算法和模型来实现的,虽然在功能上与人类的注意力机制有相似之处,但在实现原理和灵活性上存在显著差异,例如对定性描述词的理解。当前当前 AI 的局限性或在于其学习效率的低下,而的局限性或在于其学习效率的低下,而非数据不足。真正的智能不仅是数据量的堆积,而是在于对信息的压缩和提炼,非数据不足。真正的智能不仅是数据量的堆积,而是在于对信息的压缩和提炼,类似于通过总结第一性原理的方式获取更深层次的智能。类似于通过总结第一性原理的方式获取更深层次的智能。图3.大语言模型上不同提示添加策略与大脑相似性 图4.大语
14、言模型在处理积极和消极情感文本时与大脑的相似性 数据来源:Yuqi Ren 等论文Do Large Language Models Mirror Cognitive Language Processing?,财通证券研究所 注:该图表明提示添加策略会影响大语言模型与大脑的相似性,明确提示添加策略在提升相似性方面具有一定优势。数据来源:Yuqi Ren 等论文Do Large Language Models Mirror Cognitive Language Processing?,财通证券研究所 注:该图表明大语言模型在处理积极情感文本时与大脑的相似性更高,可能反映了训练数据或模型结构等因素对
15、情感处理的影响。1.2 Transformer 应运而生:应运而生:Attention is all you need Transformer 是一种基于注意力机制的神经网络架构,由是一种基于注意力机制的神经网络架构,由 Google Brain 团队于团队于2017 年在论文年在论文Attention Is All You Need中提出。中提出。它在自然语言处理领域迅速占据主导地位,并广泛应用于图像处理和语音识别等其他领域。Transformer 的出现旨在解决循环神经网络(Recurrent Neural Network,简称 RNN)在处理长序列数据时面临的并行化难题和长距离依赖捕捉困
16、难。如下图 5 所示,Transformer 架构由编码器编码器(含输入嵌入、位置编码、多头注意力、前馈网络、残差连接与层归一化)和解码器解码器(含输出嵌入、位置编码、掩码多头注意力、编码器-解码器注意力、前馈网络、残差连接与层归一化,最后经线性层和 Softmax 层输出)组成。通过摒弃传统循环结构,通过摒弃传统循环结构,Transformer 利用自注意力机制并行处理序列元素,显利用自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力。著提升了训练速度和长距离依赖建模能力。此外,Transformer 模型通过多头注意力机制(Multi-Head Attention,简称
17、MHA)解决了自注意力机制可能导致的有效分辨率降低问题,增强了对输入数据细节的捕捉能力。图5.Transformer 模型架构 数据来源:Google Brain,财通证券研究所 注意力机制注意力机制的核心原理是依据输入序列中每个元素的重要性赋予不同的权重,使模型能够聚焦于关键元素。在 Transformer 架构中,自注意力机制赋予了模型一种独特的能力,即同时计算输入序列中所有位置之间的相互关系权重,并据此加权生成每个位置的特征表示。具体而言,自注意力机制就像是赋予了序列中每个元素(例如一句话中的每个词)一种“视野”,使它们能够同时“看到”序列中的其他所有元素,并根据彼此之间的相关性重新分配
18、权重。对于序列中的每个词,模型会计算它与其他所有词之间的注意力分数,然后依据这些分数对所有词进行加 权求和,从而得到该词的新表示。这一过程是并行地对序列中所有词同时进行的(见图 7 的矩阵乘法),极大地提升了模型处理序列数据的效率和效果。图6.注意力机制预测下一个词汇 数据来源:OpenAI 公开演讲,财通证券研究所 注:在大语言模型中,注意力机制依语境分配权重来准确预测,当单词预测概率越接近 1.0,表明模型预测的结果越好。在数学表达中,注意力机制的函数可以被定义为将一个查询(在数学表达中,注意力机制的函数可以被定义为将一个查询(Query,简称,简称 Q)和一组键值对(和一组键值对(Key
19、-Value,简称,简称 K-V)映射到一个输出,其中查询、键、值和输)映射到一个输出,其中查询、键、值和输出均为向量形式。出均为向量形式。具体来说,输出是计算值(V)的加权和,而每个值所分配的权重则是基于查询(Q)与相应键(K)之间的兼容性函数计算得到的。用更通俗的语言来解释这一过程:Query(查询)代表“我当前需要处理的信息”;Key(键)代表“可能相关的信息线索”;Value(值)代表“实际的相关内容”。如下图 7 所示,在完成 Query 和 Key 的相似度计算后,通过 Softmax 激活函数将原始分数转化为和为 1 的概率分布,就可以将输入向量中的数值解释为各个类别或事件的概率
20、。Softmax 函数的特点是会放大输入向量中较大值的相对优势,使函数的特点是会放大输入向量中较大值的相对优势,使得最大值对应的概率更加突出,而其他较小值对应的概率相对较小。这有助于模得最大值对应的概率更加突出,而其他较小值对应的概率相对较小。这有助于模型在进行决策或分类时更加明确地倾向于可能性最大的选项。型在进行决策或分类时更加明确地倾向于可能性最大的选项。图7.缩放点积注意力(Scaled Dot-Product Attention)原理和 Softmax 公式 数据来源:Google Brain,财通证券研究所 在单一注意力机制的基础上,我们可以构建多个并行的注意力机制组合,这种组在单一
21、注意力机制的基础上,我们可以构建多个并行的注意力机制组合,这种组合被称为多头注意力(合被称为多头注意力(Multi-Head Attention,简称,简称 MHA)。)。多头注意力机制显著扩展了模型的视野,使其能够从多个不同的角度同时关注输入信息,从而捕捉到更丰富的特征和关系。这种机制不仅增强了模型对序列中依赖关系的学习能力,还有效缓解了单一注意力机制可能遇到的有效分辨率降低等问题,进而显著提高了模型的整体性能和准确性。通过这种方式,多头注意力机制为模型提供了更强通过这种方式,多头注意力机制为模型提供了更强大的表达能力和更高效的计算效率大的表达能力和更高效的计算效率。图8.多头注意力(Mul
22、ti-Head Attention)原理和 MHA 公式 数据来源:Google Brain,财通证券研究所 1.3 Transformer 的优势:规模扩展、多模态能力的优势:规模扩展、多模态能力 位置编码与并行化助力长距离依赖处理。位置编码与并行化助力长距离依赖处理。Transformer 模型通过位置编码赋予输入序列中各元素顺序信息,使其能区分不同位置的元素,从而有效处理长距离依赖,这在机器翻译等任务中极为关键。如图 5 所示,对比 Transformer 和 LSTM 在不同参数数量和上下文长度下的测试损失,Transformer 在处理长上下文方面更具优势,能更好地利用长上下文信息,
23、且随着参数和上下文长度的增加,其性能提升更为显著。与与 RNN/LSTM 相比,相比,Transformer 可同时处理所有标记,避免了信息可同时处理所有标记,避免了信息衰减或消失的问题,还能充分利用衰减或消失的问题,还能充分利用 GPU 等现代计算设备的并行计算能力,大幅等现代计算设备的并行计算能力,大幅提升训练效率。例如在处理百词长句时,提升训练效率。例如在处理百词长句时,RNN 需逐词处理,而需逐词处理,而 Transformer 则可则可一次性完成。一次性完成。图9.Transformer 和 LSTM 在不同参数数量和上下文长度下的测试损失 数据来源:Jared Kaplan 等论文
24、Scaling Laws for Neural Language Models,财通证券研究所 助力模型高效训练与规模拓展助力模型高效训练与规模拓展。Transformer 的并行计算优势显著提升了模型训练效率,使其在处理大规模数据集如语言模型预训练、机器翻译等任务时,能在更短时间内完成训练。以 GPT 系列为例,其快速预训练得益于此。同时,训练效率的提高也推动了 Transformer 模型规模的扩大,更大规模的模型能学习到更丰富的特征和复杂模式,近年来出现了如 GPT-3、Megatron-LM 等超大规模 Transformer模型,在自然语言处理领域取得了突破性成果。图10.主流大模型
25、参数量变化 数据来源:Johannes Gerstmayr 等论文Multibody Models Generated from Natural Language,财通证券研究所 注:2019 年 Megatron 和 2020 年 GPT-3 取得了重大进展。*GPT-4 的参数数量未正式披露,但疑似遭到泄露。本报告来源于三个皮匠报告站(),由用户Id:93117下载,文档Id:490243,下载日期:2025-01-21 跨模态应用广泛跨模态应用广泛。Transformer 架构的灵活性,使其成为众多非自然语言处理领域先进模型构建的基础框架,展现出广阔的应用前景。Transformer 架
26、构具备一项架构具备一项关键能力,即能够将不同模态的数据映射到统一的特征表示空间。关键能力,即能够将不同模态的数据映射到统一的特征表示空间。以多模态任务中的文本与图像处理为例,Transformer 首先将文本数据转化为词向量,同时将图像数据转换为像素特征向量。在完成这一转换后,这些来自不同模态的特征向量便能够在同一特征空间内进行有效的处理与交互。相比之下,相比之下,Transformer 的前的前期架构,例如期架构,例如 CNN,虽然擅长处理视觉数据,在图像处理任务中有强大的优势,虽然擅长处理视觉数据,在图像处理任务中有强大的优势,但跨模态信息的融合能力相对较弱;而但跨模态信息的融合能力相对较
27、弱;而 RNN/LSTM 虽然适合处理序列数据,尤虽然适合处理序列数据,尤其是文本和语音数据,但在跨模态任务中的长程依赖和效率上较为薄弱。这种统其是文本和语音数据,但在跨模态任务中的长程依赖和效率上较为薄弱。这种统一的特征表示方式,显著降低了不同模态数据融合与比较的复杂度,进而助力多一的特征表示方式,显著降低了不同模态数据融合与比较的复杂度,进而助力多模态模型更加高效地整合和分析来自多种数据源的丰富信息。模态模型更加高效地整合和分析来自多种数据源的丰富信息。图11.RNN/LSTM、CNN 和 Transformer 在跨模态任务中的优势、劣势 架构名称架构名称 优势优势 不足不足 Trans
28、formerTransformer 自注意力机制自注意力机制:能够捕捉长程依赖和全局上下文信息,对长文本或复杂图像-文本关系有较强建模能力 计算开销大计算开销大:处理大规模数据时需要大量的计算资源,尤其在跨模态任务中更为显著 跨模态信息融合能力强跨模态信息融合能力强:能够在多个模态之间高效对齐和融合特征 对小数据集效果较弱对小数据集效果较弱:虽然预训练模型可以弥补数据不足,但在小样本学习场景中仍有挑战 并行计算并行计算:由于没有序列化的计算依赖,可以进行更高效的训练 CNNCNN 视觉特征提取能力强视觉特征提取能力强:CNN 非常擅长从图像中提取空间局部特征,适用于图像识别、物体检测等任务 长
29、程依赖处理不足长程依赖处理不足:CNN 较难处理图像中的全局长程依赖关系,可能在复杂的图像-文本匹配任务中表现不佳 局部特征捕捉局部特征捕捉:适合捕捉图像中的边缘、纹理等低级特征 跨模态信息融合较困难跨模态信息融合较困难:CNN 本身主要针对单一模态(如图像)进行建模,跨模态融合能力较弱 高效的卷积操作高效的卷积操作:对于图像数据处理非常高效,尤其在 GPU 加速下 RNN/LSTMRNN/LSTM 序列建模能力强序列建模能力强:RNN 和 LSTM 能够处理时间序列数据,适合文本、语音等顺序化数据的处理 计算效率较低计算效率较低:RNN 和 LSTM 在训练时需要逐步计算,无法并行处理,导致
30、计算效率低 长短期记忆长短期记忆:LSTM 通过引入记忆单元解决了RNN 的梯度消失问题,能够捕捉长程依赖 长程依赖捕捉不如长程依赖捕捉不如 TransformerTransformer:虽然 LSTM比传统 RNN 更强大,但对于复杂的跨模态任务,Transformer 通常能更好地捕捉长程依赖 变长输入处理变长输入处理:能够处理变长输入,适合处理非结构化数据 数据来源:Kyuhong Shim 等论文A Comparison of Transformer,Convolutional,and Recurrent Neural Networks on Phoneme Recognition,财
31、通证券研究所 2 Transformer 架构的架构的未来未来 Transformer 架构通过并行处理整个输入序列,显著加快了训练和推理时间,且并行处理能力与自注意力机制的结合使得基于 Transformer 架构的大模型能够有效捕捉长距离依赖关系和上下文信息。尽管 Transformer 凭借着诸多优势成为如今的主流架构,但其并非尽善尽美,仍有无法避免的局限性。2.1 Transformer 架构的局限性架构的局限性 计算复杂度过高。计算复杂度过高。自注意力机制(Self-Attention)的计算复杂度为 O(N2d),其中N 是序列长度、d 为 token 嵌入的维度。简单来说,这使得
32、 Transformer 模型的计算复杂度会随着输入序列长度(token 数量)的增加呈二次方增长。图12.Transformer 架构的计算复杂度过高来源于其自注意力机制 Softmax Attention 数据来源:MiniMax 论文MiniMax-01:Scaling Foundation Models with Lightning Attention,财通证券研究所 模型规模的扩大模型规模的扩大将显著增加将显著增加训练和部署成本。训练和部署成本。在计算资源方面,基于 Transformer架构的模型不仅需要大量的计算资源,还要求高效的并行处理能力,这使得训练成本需要覆盖高性能的 GP
33、U 和大量的存储空间,且随着序列长度的增加,其平方级的扩展导致高内存使用,因而对内存需求也极大。图13.大模型参数量不断膨胀,已达 1000B 数据来源:Predi,财通证券研究所 计算复杂度和计算成本带来最直接的影响是限制计算复杂度和计算成本带来最直接的影响是限制 Transformer 在长序列下的应用。在长序列下的应用。虽然 Transformer 能够准确捕捉短距离的文本关系,但其注意力机制的计算复杂度会随着序列长度呈二次增长,这使得处理长文本时的计算成本变得难以承受,因而大部分大模型会将支持的上下文长度框定在一定范围内。当下基于 Transformer架构的大模型支持的上下文长度已有
34、所拓展,这正是研究者意识到 Transformer 架构局限性后对注意力机制等方面进行改进的结果,且改进后的上下文长度仍无法比肩一些新兴架构。2.2 Transformer 架构的挑战者架构的挑战者 如谷歌 CORE ML/AI 副总裁 Bill Jia 在访谈中所说,大模型的未来发展有着三条方向:一是基于现在的架构继续构建基础大模型,增加参数、投入更多的训练资源构建基础大模型,增加参数、投入更多的训练资源;二是基于大语言模型构建垂直模型构建垂直模型,通过蒸馏模型、量化模型来让模型变得更小、更有效率、更有性价比更小、更有效率、更有性价比;三是离开现在主流的 Transformer 架构,寻找不
35、同的模型架构寻找不同的模型架构。图14.谷歌 CORE ML/AI 副总裁 Bill Jia 在 2024 年硅谷华源科技年会上接受采访 数据来源:新浪,财通证券研究所 构建全新的模型架构突破 Transformer 的局限性无疑是极具挑战性的一个方向,但也会带来更多创新、有更多遐想空间。目前研究人员正在积极探索可能取代或增目前研究人员正在积极探索可能取代或增强强 Transformer 的全新架构,并提出了数个的全新架构,并提出了数个潜在的潜在的替代架构替代架构,本文将主要探讨以,本文将主要探讨以下几种架构下几种架构。图15.潜在的 Transformer 架构替代架构 架构名称架构名称 核
36、心特点核心特点 优势优势 不足不足 RetNet 多尺度保留机制(Retention),融合 RNN 和 Transformer 的优点 训练并行化 推理成本低 节省内存 建模长距离依赖能力存疑 实际应用较少 Mamba 循环框架、状态空间模型 与注意力机制结合 硬件感知型算法 线性增长的计算开销 提升长序列处理效率 记忆丢失,泛化能力弱 复杂模式表现欠佳 RWKV RNN 变体 残差块时间混合和通道混合 恒定内存占用 支持无限上下文长度 显存需求低 对提示词格式敏感 任务回顾表现较弱 Hyena 交织隐式参数化的长卷积 数据控制的门控 计算复杂度低 长序列训练速度快 无法使用 Mask,后续
37、预训练灵活性差 跟进应用较少 线性注意力机制线性注意力机制 Softmax 注意力线性化 时间复杂度降低到线性 高效处理长序列 建模长距离依赖能力 不如标准 Transformer 数据来源:Yutao Sun 等论文Retentive Network:A Successor to Transformer for Large Language Models,Haohao Qu 等论文ASurvey of Mamba,RWKV 官方文档,Michael Poli 等论文Hyena Hierarchy:Towards Larger Convolutional Language Models,Min
38、iMax 论文MiniMax-01:Scaling Foundation Models with Lightning Attention财通证券研究所 2.2.1 RetNet RetNet 引入了一种多尺度保留机制(多尺度保留机制(Retention)来替代多头注意力)来替代多头注意力,它有三种计算范式:并行、循环和分块循环表征。保留机制本质上是 RNN 和 Transformer 核心原理的融合,即 Recurrent 和 Self-Attention。RetNet 采用了递归方式来计算注意 力分数,且仍然支持一定程度的并行计算,使得其结合了并行和循环的特点。首先,并行表征使训练并行化,以
39、充分利用 GPU 设备。其次,循环表征法在内存和计算方面实现了高效的 O(1)推理。部署成本和延迟可以显著降低,同时无需键值缓存技巧,大大简化了实现过程。此外,分块循环表征法能够执行高效的长序列建模。研究者对每个局部块进行并行编码以提高计算速度,同时对全局块进行循环编码以节省 GPU 内存。图16.RetNet 的并行与循环过程 数据来源:Yutao Sun 等论文Retentive Network:A Successor to Transformer for Large Language Models,财通证券研究所 RetNet 架构同时具备训练可并行、推理成本低和良好性能的特点。架构同时
40、具备训练可并行、推理成本低和良好性能的特点。在训练过程中,RetNet 能够比标准 Transformer 节省 25-50%的内存,实现 7 倍的加速,并在高度优化的 Flash Attention 方面具有优势。此外,RetNet 的推理延迟对批大小(batch size)不敏感,从而实现了巨大的吞吐量。在 Scaling 曲线和上下文学习方面,RetNet始终表现出竞争力。RetNet 的推理成本与长度无关,对于 7B 模型和 8k 序列长度,其解码速度是带键值缓存的 Transformers 的 8.4 倍,同时内存节省 70%。这些特性使得 RetNet 成为一种高效且经济的神经网络
41、架构。当然,RetNet 作为一种具备RNN 特点的架构,其建模长距离依赖能力仍需后续验证,目前的实际落地应用也较少。图17.RetNet 同时实现训练并行性、良好性能和低推理成本这一“不可能的三角”数据来源:Yutao Sun 等论文Retentive Network:A Successor to Transformer for Large Language Models,财通证券研究所 2.2.2 Mamba Mamba 集中了循集中了循环神经网络(环神经网络(RNN)的循环框架、)的循环框架、Transformer 的并行计算和注的并行计算和注意力机制、状态空间模型(意力机制、状态空间模
42、型(SSM)的线性特性)的线性特性。状态空间模型(SSM)是一种传统的数学框架,可用于描述系统随时间变化的动态行为。Mamba 引入一个简单却有效的选择机制选择机制,其可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。Mamba 还包含一种硬件感知型硬件感知型算法算法,可使用扫描(scan)而非卷积来循环地计算模型,提升计算速度。后续的迭代版本 Mamba-2 利用结构化空间状态对偶(SSD/Structured Space-State Duality)构建了一个将结构化 SSM 与多种形式的注意力连接起来的稳健的理论框架,让原本为 Tran
43、sformer 开发的算法和系统优化技术可迁移用于 SSM。图18.状态空间模型(SSM)的架构示意图 数据来源:Haohao Qu 等论文ASurvey of Mamba,财通证券研究所 Mamba 架构以线性增长的低计算架构以线性增长的低计算开销和硬件感知型算法实现了对长序列数据的开销和硬件感知型算法实现了对长序列数据的高效处理,显著提升了计算速度和性能。高效处理,显著提升了计算速度和性能。与 Transformer 相比,Mamba 的计算开销随序列长度线性增长,这使得它能够处理更长的文本序列,同时大幅降低计算成本。此外,Mamba 采用了硬件感知型算法,使用扫描进行循环计算,在 A10
44、0GPU上能够将计算速度提升 3 倍,进一步增强了其在处理长序列数据时的效率和性能。图19.RNNs、Transformers 和 SSMs 在自回归序列建模任务中的优缺点 数据来源:Haohao Qu 等论文ASurvey of Mamba,财通证券研究所 Mamba 架构并非没有缺陷,记忆丢失、难以泛化到不同任务、在复杂模式方面的记忆丢失、难以泛化到不同任务、在复杂模式方面的表现不及基于表现不及基于 Transformer 的语言模型的语言模型等问题仍然存在,但开源的研究社区为Mamba 架构提出了诸多改进方案,后续将继续优化。图20.改进 Mamba 架构的现有研究总结(主要集中于修改块
45、设计、扫描模式和记忆管理)数据来源:Haohao Qu 等论文ASurvey of Mamba,财通证券研究所 2.2.3 RWKV(Receptance Weighted Key Value)RWKV 是循环神经网络(是循环神经网络(RNN)的一个变体。)的一个变体。RWKV 架构由一系列堆叠的残差块组成,每个残差块由具有循环结构的时间混合(time-mixing)和通道混合(channel-mixing)子块组成,该循环通过将当前输入和上一时间步的输入之间进行线性插值来实现(在 RWKV-4 架构论文中正式提出,这一过程被称为 token shift,将 RWKV 接收的每个 token
46、和前一个 token 做混合)。Token Shift 让模型可以控制每个时间步将多少新信息与旧信息分配给每个头的接收、键、值和门向量。图21.RWKV-6 的 token shift 计算流程 数据来源:RWKV 官方,财通证券研究所 RWKV 架构仍在不断迭代。架构仍在不断迭代。RWKV-5 引入了多头的、基于矩阵值的状态(state),即论文中的“multi-headed matrix-valued states”。RWKV-V6 在 RWKV-V5 的基础上引入了基于低秩适应(LoRA)的动态递归机制,进一步优化了 Token Shift 和 time-mixing 过程,使 RWKV
47、-4/5 的简单线性插值(lerp)变成了数据依赖的、动态的线性插值(ddlerp)。最新版本的架构 RWKV-7 采用了动态状态演化(Dynamic State Evolution),其架构的训练和推理代码均已定稿,架构论文仍在撰写过程中。图22.RWKV-4、RWKV-5 Eagle 和 RWKV-6 Finch 模型的上下文长度实验随版本迭代表现变好 数据来源:RWKV 官方,财通证券研究所 注:经过不断地版本迭代,基于 RWKV 架构的模型在长序列任务上有显著的改进,在相同长度的上下文实验下损失越来越小。RWKV 架构融合了架构融合了 RNN 和和 Transformer 的优势,展现
48、出出色的性能、恒定的显的优势,展现出出色的性能、恒定的显存占用、恒定的推理生成速度以及存占用、恒定的推理生成速度以及“无限无限”的上下文长度,同时提供免费的句嵌的上下文长度,同时提供免费的句嵌入,且完全不含自注意力机制。入,且完全不含自注意力机制。在资源使用方面,RWKV 在运行和训练时对 VRAM、CPU、GPU 等资源的需求更低,与较大上下文的 Transformer 相比,其计算需求降低了 10 倍到 100 倍。此外,RWKV 支持以线性方式扩展到任何上下文长度,而Transformer 则是以二次方扩展。在答案质量和泛化能力方面,RWKV 的表现与Transformer 架构相当。图
49、23.在 RWKV-6Finch、Mamba 和 Flash Attention 中,RWKV-6 的显存占用率最低 数据来源:RWKV 官方,财通证券研究所 基于基于 RWKV 架构的模型的架构的模型的不足不足在于在于 RWKV 基底模型对提示词(基底模型对提示词(prompt)的格)的格式非常敏感,提示词的格式对生成结果有较大影响。式非常敏感,提示词的格式对生成结果有较大影响。且由于架构设计的原因,RWKV 模型在需要回顾的任务上表现较弱,因此需要恰当地对提示词进行排序。例如,应先给模型提供任务指令,然后再提供需要执行任务的材料文本,以确保模型能够更有效地理解和执行任务。图24.RWKV
50、基础模型的众多应用场景 数据来源:Zhiyuan Li 等论文A Survey of RWKV,财通证券研究所 2.2.4 Hyena Hyena 由两个高效的二次基元递归定义的算子(交织隐式参数化的长卷积和数据两个高效的二次基元递归定义的算子(交织隐式参数化的长卷积和数据控制的门控)组成控制的门控)组成,构建了一个高效、灵活且计算复杂度低的注意力替代算法注意力替代算法,用于来取代 Transformer 架构中的注意力函数。Hyena 算子定义了两种高效的亚二次基本操作:隐式长卷积和数据控制的对角矩阵乘法。递归深度决定算子大小,Hyena 可表达为与数据相关的对角矩阵和托普利茨矩阵的乘积。它
51、具有亚线性参数缩放、不受限制的上下文及比注意力机制更低的时间复杂度。与 Transformer 中的注意力算法相比,该运算符的主要优点是时间复杂度降低,由于使用卷积(具体来说是傅里叶空间中的卷积)并应用 FFTConv 运算,时间复杂度为 O(n*log(n)而不是 O(n2)。图25.Hyena 算子的结构和工作原理 数据来源:Michael Poli 等论文Hyena Hierarchy:Towards Larger Convolutional Language Models,财通证券研究所 Hyena 能够显著缩小与注意力机制的差距,以较小的算力预算来达到相同效果以较小的算力预算来达到相
52、同效果。在序列长度为 2K 时,Hyena 将训练计算量减少了 20%,达到了 Transformer 的质量。当序列长度为 8K 时,Hyena 算子的速度是高度优化注意力的两倍,而在序列长度为 64K 时,速度是 100 倍。Hyena 目前的表现十分出色,不过 Hyena 运算不支持 Mask(用于大语言模型预训练建模过程中的遮盖),这也导致使用使用 Hyena 架架构进行生成式预训练建模不构进行生成式预训练建模不够够灵活灵活。Hyena 的的跟进应用也较少,跟进应用也较少,未来应用空间有未来应用空间有待进一步验证待进一步验证。2.2.5 线性注意力机制线性注意力机制 线性化处理线性化处
53、理 Softmax 操作,降低时间复杂度操作,降低时间复杂度,提升模型效率,提升模型效率。线性注意力机制通过对传统注意力机制中的 Softmax 操作进行线性化处理,将时间复杂度降低到线性(O(N)),从而提高 Transformer 模型的并行性能、降低复杂度,在计算效率、模型表达能力等方面都具有优势。但线性注意力相比 Softmax 注意力建模长距离建模长距离依赖能力较差依赖能力较差,目前的研究正在着重解决这个问题。线性注意力机制相关研究作为改进 Transformer 架构的重要方向,目前 Agent Attention、TransNormerLLM、MiniMax-01 等模型研究都取
54、得了一定进展。图26.Softmax 注意力和线性注意力的计算流程 数据来源:MiniMax 论文MiniMax-01:Scaling Foundation Models with Lightning Attention,财通证券研究所 Agent Attention:一种新的注意力机制,通过在传统注意力模块中引入一组额外的代理向量 A,实现了从键 K 和值 V 中高效聚合信息,并将这些信息有效广播回查询向量 Q。这一设计不仅显著提升了计算效率,还保留了全局上下文建模的强大能力。Agent Attention 的创新之处在于,它成功地将传统的Softmax 注意力与线性注意力无缝集成,形成了一
55、种全新的注意力范式。这种范式不仅具备高表达能力,同时拥有低计算复杂度的优势。实验表明,Agent Attention 在多种视觉 Transformer 模型及不同视觉任务中均表现出色,尤其在处理高分辨率场景时效果更为显著。此外,Agent Attention 还可应用于预训练的大规模扩散模型,有效加速图像生成过程,并显著提升生成图像的质量。图27.Agent Attention 的计算流程 数据来源:Dongchen Han 等论文Agent Attention:On the Integration of Softmax and Linear Attention,财通证券研究所 TransN
56、ormerLLM:由上海人工智能实验室和 OpenNLPLab 首个线性注意力Transformer 大模型。该模型完全放弃了传统的 Softmax 注意力机制,转而采用线性注意力机制,将 Softmax 注意力分解为多个线性运算,从而将计算复杂度从平方级别降低到线性级别,极大地提高了模型的效率,使其能够处理更长的序列。为了进一步提高线性注意力的计算效率,TransNormerLLM 引入了 Lightning Attention 技术,Lightning Attention 将输入数据分割成多个块,并分别进行计算,从而减少了内存访问次数并提高了计算速度,研究团队表示其可以将线性注意力在训练时
57、的速度提升两倍,并且其还能通过感知 IO 将内存用量减少 4 倍。图28.不同模型大小的 Transformer 和 TransNormer LLM 的最大上下文长度 数据来源:Zhen Qin 等论文TransNormerLLM:A Faster and Better Large Language Model with Improved TransNormer,财通证券研究所 MiniMax-01 系列模型:首次将线性注意力机制扩展到商用模型的级别。MiniMax-Text-01 架构以结构化的方式整合了线性注意力和 Softmax 注意力机制。通过使用线性注意力,原生 Transforme
58、r 的计算复杂度可从 O(N2)大幅下降到 O(N)。MiniMax 的相关技术报告中写道,这主要是得益于一种右边积右边积核技巧核技巧(right product kernel trick)。基于 Lightning Attention,MiniMax 还提出了一种 Hybrid-lightning,即每隔 8 层将 Lightning Attention 替换成 Softmax注意力,从而既解决了 Softmax 注意力的效率问题,也提升了 Lightning Attention 的 scaling 能力。图29.MiniMax-Text-01 的结构 数据来源:MiniMax 论文Mini
59、Max-01:Scaling Foundation Models with Lightning Attention,财通证券研究所 2.3 架构展望架构展望:更低计算复杂度、更低成本、更高效率:更低计算复杂度、更低成本、更高效率 目前对 Transformer 架构的未来,主要有两条道路,一是被更优秀的全新架构替代,二是在原有架构基础上通过优化注意力机制等方式进行升级,这两条道路都是通往计算复杂度更低、计算成本更低、效率更高计算复杂度更低、计算成本更低、效率更高这个目标。AI 大模型的未来方向也是如此,一方面可能会探索全新的基础理论和模型架构,从根本上颠覆现有技术体系;另一方面,也会在现有技术框架内深挖潜力,例如优化参数高效化、开发更智能的训练方法、降低对数据和算力的依赖等。无论选择哪条路径,最终的目 标都是实现更高的性能、更强的泛化能力、更低的资源消耗,以推动 AI 在更多实际场景中的应用,同时让其更加可持续的普惠化的发展。