《量子位智库:2025大模型架构创新研究报告(30页).pdf》由会员分享,可在线阅读,更多相关《量子位智库:2025大模型架构创新研究报告(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、大模型架构创新研究报告自 年 出世、提出 架构以来,已过。AI 行业对 Transformer 的路径依赖引发了越来越多的争论,体现出日渐迫切的架构创新需求。目前行业内针对这一问题主要存在:对 进行,特别是针对其核心组件Attention 机制的优化与变体探索,例如稀疏 Attention 等技术,旨在提升计算效率和内存利用率,以更好地适应大规模训练场景。对进行,如新型 RNN 架构等。这些架构试图从根本上摆脱对 Attention机制的依赖,并在长序列建模、并行计算和推理效率上展现出独特优势。值得注意的是,当前大模型架构的发展呈现出日益明显的,不同架构之间的界限越来越模糊,更多性能领先的创新
2、架构具备 的特点。本报告将围绕以上两条探索路径展开梳理,并拆解这些大模型架构创新的底层逻辑,对大模型架构层未来发展可能的演进方向及趋势作出分析。01020304Transformer 的地位与挑战Transformer 架构占据行业绝对主导地位Transformer Transformer 架构目前仍架构目前仍占领大模型架构绝对主流地位:占领大模型架构绝对主流地位:架构的通用性、可扩展性以及丰富优化生态使其仍是国内外大规模语言、视觉、多模态模型的首选架构。非 Transformer 架构 2025 年实现工业级落地 0-1 突破:Minimax 推出 MiniMax-01 首次实现线性架构千亿
3、参数(456B)工业级别落地验证,腾讯混元 T1 正式版基础模型 Turbo-S 采用 Transformer+Mamba 混合架构,标志着非 Transformer 架构技术路径在 2025 年实现了从科研走向工业落地的 0-1 突破。国内主流模型架构Transformer 架构线性架构混合架构海外主流模型架构OpenAI GPT 大模型Google Gemini 大模型AnthropicClaude 大模型xAI Grok 大模型Meta Llama 大模型Mistral AI Mistral 大模型注:盘点不分排名先后顺序百度文心大模型阿里巴巴 通义大模型科大讯飞讯飞星火大模型字节跳动豆
4、包大模型华为盘古大模型商汤日日新大模型MiniMaxMiniMax-01腾讯混元大模型 月之暗面Kimi 大模型阶跃星辰Step 大模型DeepSeekDeepSeek 大模型面壁智能MiniCPM 大模型智谱GLM 大模型Hinton AlexNet用 CNN 做图像识别Ilya Sutskever Seq2Seq 用 LSTM 做翻译Kyunghyun Ch GRU提升 RNN 效率与性能CNN(卷积神经网络)用于图像处理语言任务中有一定应用RNN(循环神经网络)达到研究巅峰发展出 LSTM、GRU2006-20172017-2019前 Transformer 十年:深度学习引入 NLPT
5、ransformer 时代开启:预训练与 Scaling Law 范式出现与主导2017 Google、UofTAttention is All You Need预训练与 Scaling LawScaling Law 范式兴起TransformerTransformer 成主流架构 RNN 训练困难,容易出现梯度消失/爆炸问题。缺乏并行性。难以处理超长序列。关键论文关键 模型架构特点 参数规模逐步突破百百亿级亿级(Google T5-11B)。预训练预训练+微调微调范式成为行业主流。生成式模型、理解式模型、多模态模型路线开始分化。大模型架构演进历史:从深度学习革命到 GPT 开启 Transf
6、ormer 时代RNN基础架构LSTM解决长程依赖GRU简洁轻量版Google BERT:Pre-training of Deep Bidirectional BERT:Pre-training of Deep Bidirectional Transformers forLanguage UnderstandingTransformers forLanguage Understanding预训练预训练+微调(微调(fine-tuningfine-tuning)范式兴起BERTBERT(20182018)首个双向 Transformer 预训练模型,语言表示模型奠基之作ChatChatGPTGP
7、T(20182018)首个 Transformer 自回归语言模型,开启生成式 AI 先河 GPT-3(2020)突破千亿参数,生成式 AI 里程碑。CLIP&DALLE(2021)融合视觉和文本,多模态开山作 GLM-130B(2021)首个开源中文百亿参数大模型 GPT-4(2023)取得多模态生成和逻辑推理(Chain-of-Thought)、Tool Use、System Prompt 等突破 Claude(Anthropic)、Gemini(Google)、Mistral等不同技术流派的探索 腾讯混元、通义阿里、字节豆包、创业六小强等中国大模型崛起RWKV、Mamba 等非 Tran
8、sformer 架构的兴起与探索 基础模型参数爆炸式增长,迅速突破千亿及万亿门槛。Scaling Law 成为主流共识,算力、数据、模型参数规模化成为共同发力点 预训练-微调+Transformer+next token prediction 范式具备统治力 基础模型概念成共识,多模态大模型萌芽2020 OpenAI Jared Kaplan 等提出 Scaling Law 迅速成为共识2020-2022Transformer时代巅峰:基础模型参数规模不断突破2023-至今后Transformer时代:预训练范式见顶,创新架构探索兴起2021 GoogleSwitch Transformer
9、引入 MoE突破万亿参数规模大模型架构演进历史:主流范式从共识到见顶,后Transformer时代开启关键论文/演讲关键 模型架构特点GPT-3175BScaling Law2020Switch Transformer1.6Tsparse2021GPT-41.8Tmultimodal,tool use,reasoning20222023 OpenAI Ilya 发表“预训练结束”观点2023 OpenAI GPT-4 技术报告提出多阶段训练、精细化对齐(alignment)与稳健性能优化2025 DeepSeek R1 技术报告验证仅强化学习(RL)无监督微调(SFT)新范式 随着模型规模增大
10、,计算成本和存储需求激增,预训练+微调训练范式与 Transformer 架构范式见顶。强化学习(RL)+多阶段训练策略和知识蒸馏,提升大模型深度推理 System 2 能力成为新共识。多模态大模型从多个模型简单拼接开始走向理解生成一体+原生多模态模型。新兴非 Transformer 架构如 Mamba、RWKV、RetNet 等涌现,开始出现工业级落地。参考信息:EPOCH AICan AI Scaling Continue Through 2030?、foundation capitalHas AI scaling hit a limit?、OpenReviewOn Limitations
11、 of the Transformer ArchitectureTransformer 架构逐渐暴露出 3 大局限性 OpenAI GPT-4 推理阶段资源密度远超 GPT-3,模型在推理阶段为了保留能力,使用了混合专家 MoE 架构,仍需大量 GPU 支撑。根据 Epoch AI 在 2024 年 8 月的研究,当前 AI 训练规模正以每年4倍的速度增长,预计到 2030 年将需要近 2000 万个H100 级别的 GPU。SemiAnalysis、Lambda Labs 等报告显示,GPT-4 每一次多轮对话的 token 处理成本数倍于 GPT-3,大幅拉高部署门槛。Transforme
12、r 架构二次计算复杂度导致算力消耗增长过快问题已成制约大模型普及的关键障碍 以 OpenAI o1 模型发布为节点,研究趋势从预训练转向“后训练”(DPO、CoT等),重要模型转向新的基础结构与能力路径(MoE、Memory、World Models等)。Foundation Capital 在 2024 年底发表的研究指出,“Next-token prediction 很聪明,但似乎创造出的系统更多是在反应而非真正理解”。Grok3 模型训练资源提升一个数量级,训练效果提升不到 2%。数据墙算力墙架构墙Transformer 架构、Next-Token Prediction 和 Scalin
13、g Law 范式见顶,预训练结束 2024 年 EdgeInfinite 研究指出,Transformer 注意力机制的二次时间复杂度和KV 缓存的增长内存使用给在资源受限的边缘设备上处理长序列带来了挑战。研究人员开始越来越多转向研究高效模型、保留网络和线性注意力等 Transformer 替代架构,如 Mamba 和 RWKV,它们在处理长序列时表现出更高的效率。Transformer 架构端侧部署局限性较大,长序列任务效率瓶颈训练范式革新Next Training Recipe在实际训练中 3 类解决方式往往同时出现以 DeepSeek-R1 为例:跳过 SFT 直接进行 RLGRPO 价
14、值模型优化DualPipe 流水线FP8 混合精度 多头潜注意力机制 MLA后 Transformer 时代 3 大革新:训练范式、架构创新、工程优化工程优化工程优化Transformer 架构改进Attention 机制创新FFN 层改进其他高效改进非 Transformer 架构探索新型 RNN 路径新型 CNN 路径其他路径混合 Hybrid 架构探索两条路线存在交叉Transformer 架构改进Transformer里有什么?Attention1+FFN2+其他3=Transformer1.Attention 机制既是 Transformer 架构的最大优势也是其最大痛点,对 Att
15、ention 机制的改进成为 Transformer 架构改进的必由之路。2.FFN 层继从 Dense 到 MoE 的进化后,仍在持续尝试探索下一代技术。3.除 Attention 和 FFN 以外的其他机制,如 Decay 机制改进等也产生了许多高质量工作。Transformer里有什么?参考信息:A Survey of Transformers Add&NormFFNAttentionAdd&NormToken EmbeddingPositional Encodings*LAttention 机制优化是重中之重,后 MoE 时代 FFN 层持续改进FFN 改进Attention 改进其他
16、改进研究热度减少计算复杂度从而降低计算成本,如从 O(N)降至 O(N log N)、O(N)等继 MoE 之后,对传统 Dense FFN层做进一步稀疏化、动态化改进对 Transformer 架构进行高效改进核心思路线性注意力稀疏注意力动态注意力多头注意力动态类脑激活极致稀疏KV Cache归一化层残差连接位置编码EmbeddingDecay机制等做改进主要内容Attention 改进目前主要分稀疏和线性两大技术方向Latent Space Attention潜空间注意力Sliding Window AttentionAttentionDilated AttentionRandom Att
17、entionBlock AttentionDynamic AttentionSparse Attention引入稀疏模式减少计算复杂度Linear Attention将自注意力矩阵的点积计算线性化,降计算复杂度为 O(n)目前与非 Transformer 架构路线可划约等号,关于非 Transformer 架构的讨论见3.0 注意力机制稀疏注意力改进线性注意力改进其他注意力机制改进滑动窗口注意力膨胀注意力随机注意力块注意力动态注意力局部注意力Local AttentionMulti-Head Attention多头注意力Multi-Layer Attention多层注意力KV Cache键值缓
18、存改进Local Attention模型在某一时刻的“关注点”对输入内容提问Key(键)Query(查询)Value(值)被检索的“标识符”用于与 Query 特征匹配识别信息相关性对应“实际内容”或“细节信息”响应 Query 需求稀疏注意力机制:一种减少全局计算的注意力机制,核心思想是仅关注输入序列中部分最相关的上下文信息,而非对整个序列进行全注意力计算。通过引入稀疏连接或局部窗口等策略有效降低计算复杂度和内存消耗,尤其在处理长序列时,能够显著提高计算效率。MoBA(Kimi,2025)通过应用 MoE(Mixture of Experts)的原则来动态选择历史块进行注意力计算,将整个上下
19、文划分为多个块(Block),每个查询(Query)仅与最相关的键值(KV)块进行注意力计算,降低计算复杂度,并允许在全注意力和稀疏注意力模式之间无缝切换。SeerAttention(MSRA,2024)可学习的门控模块(AttnGate)直接从模型中学习块级注意力稀疏性,利用池化和线性层处理查询(Q)和键(K)张量,生成门控分数以预测稀疏块,并结合块稀疏FlashAttention内核实现显著加速。稀疏改进(Sparse Attention)是目前最主流、最活跃、争议最少的方向路线代表工作动态+块注意力动态+块注意力动态、可学习(Dynamic Trainable Attention)改进是
20、近年明显趋势动态注意力机制:动态可学习注意力路径或稀疏模式由模型自动学习,非预定义。针对不同输入、在不同位置可采用不同的注意力连接方式,自适应选择相关上下文,灵活聚焦关键信息,避免全局静态计算带来的资源浪费。代表工作代表工作以LongFormer 首次提出的 Sliding Window Attention 为代表,预定义结构指注意力连接模式,即每个 Query 关注哪些 Key在模型训练或推理过程中人工预先设定、固定不变。可学习动态注意力机制可以 NSA 为代表,通过结合粗粒度 Token 压缩和细粒度 Token 选择机制,动态筛选关键信息,减少冗余计算,降低计算复杂度并提升处理效率。NS
21、A(DeepSeek,2025)LongFormer(Beltagy,2020)上一代范式新技术趋势预定义结构dynamic trainable attention可学习动态结构predefined structural attention 键值缓存机制是 Attention 机制关键,继 MHA 后 GQA、MQA 成重要工作技术实现键值缓存机制:在自回归生成中缓存注意力机制中的 Key 和 Value 的技术,用于避免重复计算加速推理过程;与 Attention 机制紧密相关,是在其推理阶段对其中 K、V 部分进行高效复用的加速优化技术。主要路线通过让多个 Attention Head 或
22、 Layer 共享相同的 Key/Value 表示,减少内存占用并提升缓存复用效率。共享KV只保留最近一段上下文的 Key/Value,用滑动窗口方式限制缓存长度,控制计算量同时保持局部信息敏感。窗口KV通过工程手段对缓存中的 Key/Value 进行低比特量化或结构压缩,显著降低显存开销,适用于大规模长上下文生成,以 Flash Attention 为代表。量化压缩代表工作参考信息:知乎Trancy Wang将查询头分组并在每组内共享键(K)和值(V)头,在保持接近 MHA 性能的同时,大幅降低内存带宽开销。GQA(Google,2023)YOCO(Google,2024)采用解码器-解码器
23、架构,通过自解码器生成全局键值对(KV)缓存,供交叉解码器跨层共享复用,仅需缓存一次 KV 即可支持长序列推理,大幅降低内存消耗并提升预填充效率。后 MoE 时代 FFN 层持续改进,稀疏度不断取得突破FFN 层改进:上代技术混合专家(MoE)核心思想是将传统的密集前馈网络(Dense FFN)替换为稀疏的专家层,通过门控网络(Router)动态选择最适合当前输入的专家进行计算。后 MoE 时代,出于参数规模 Scaling 的需要,FFN 层稀疏度持续取得突破。技术路径代表工作UltraMem(ByteDance,2025)引入 Ultra-Sparse Memory Layer 将 FFN
24、 层参数分解为大规模键值存储,利用塔克分解查询键检索、隐式值扩展等技术,保持计算量的同时显著减少内存访问。Dense 稠密MoE 混合专家极致切细多层简化类脑稀疏Top K机制 借鉴人类大脑的稀疏激活机制,将 Transformer 的 FFN 层拆解为可动态激活的神经元组砖块,通过稀疏连接和功能分区实现计算效率提升。CFM(Tsinghua U、ModelBest,2024)MH-MoE(MSRA,2024)通过多头机制将单个 Token 拆分为多个子 Token,使每个子 Token 独立路由至不同专家并行处理,无需增加计算复杂度即可显著提升专家激活率至 90%以上,同时通过轻量级合并层实
25、现多专家语义融合,简化传统 MoE 结构。对每个输入 Token,根据门控网络打分,选择得分最高的 K 个专家参与计算,降低总体计算量并实现稀疏激活。归一化层改进:趋向采用更轻量、稳定或结构更灵活的归一化方式,甚至探索去归一化层以提升训练效率与大规模模型稳定性。输入层改进:趋向于采用可学习的 Token 表示与更结构化或可扩展的 Position Encoding 以及动态或混合位置编码。Transformer 架构其他部分改进以 Decay 机制、归一化层改进为主输入层改进归一化层改进替换归一化去归一化技术路径代表工作DyT(Meta、NYU、MIT,2025)何恺明等提出 Dynamic
26、Tanh,通过可学习缩放参数 与 tanh 激活函数的结合,替代 Transformer 归一化层,保留非线性压缩极值能力的同时简化计算,挑战归一化层在深度学习中的必要性。RMSNorm(University of Edinburgh,2019)通过非均匀位置插值搜索算法与渐进式扩展策略,在输入层的 RoPE 位置编码中引入针对维度和起始位置的差异化缩放因子,首次将 LLM 上下文窗口扩展至 2048k Tokens,同时通过动态调整短序列位置编码恢复原始性能,实现长上下文与短序列任务的平衡。LongRoPE(MSRA,2024)非 Transformer 架构突围主流非 Transforme
27、r 架构:致力于在提供 Transformer 同等性能的同时实现算力开销控制和并行训练,计算复杂度基本都控制在线性。技术路径架构名作者时间特点新型RNN1RWKV-7Bo Peng RWKV2025.03引入并优化广义 Delta Rule 作为隐藏状态的演化机制,通过向量化门控、向量化学习率和分离的删除与添加机制,使得模型能高效地进行动态的状态演化TitansGoogle Research2025.01核心在于神经记忆模块,该模块通过动量和遗忘机制即权重衰减,能更好地管理内存容量,使模型在处理长序列以及语言建模、常识推理、时间序列预测等任务时表现出色xLSTMlELLIS Unit,LIT
28、 AI Lab,,NXAI Lab,2024.12经典架构 LSTM 现代版本,通常通过引入额外的门控机制或对隐藏状态进行扩展等方式,进一步增强 LSTM 对长序列的建模能力以及处理复杂序列任务的能力Mamba-2Princeton University,Carnegie Mellon University2024.05国外最知名,通过将选择性状态空间模型的对角矩阵进一步限制为标量乘以单位矩阵的结构,实现了 2-8 倍的训练效率提升TimeMixerAnt Group,Tsinghua University2024.05完全抛弃注意力机制,仅使用前馈网络来建模序列数据,通过设计特定的结构让前馈
29、网络能够捕捉序列中的时间依赖关系RetNetMSRA2023.07在状态空间模型架构中增加额外门路由,使用更简单的 SSM 以及多头注意力机制变体代替卷积,形成一种可并行化的计算路径,从而实现高效的序列建模新型CNNHyena HierarchyStanford University.Mila and Universite de Montreal.2023.02用 MLP 参数化的全局卷积替换 S4 层,通过这种层次化的全局卷积结构来建模序列,捕获长程依赖关系其他LFMLiquid AI2024.09受线虫神经系统启发,将高维的权重矩阵分解为多个低秩矩阵的乘积,减少模型参数量和计算量主流非 T
30、ransformer 创新架构图谱1.新型 RNN 已经日益成为非 Transformer 绝对主流技术路线,其他路线近年逐渐式微。引入广义 Delta Rule 更新机制,在传统 DeltaNet 基础上引入向量化学习率(vector-valued in-context learning rate)与向量化衰减因子(vector-valued decay),支持按通道(channel-wise)独立更新状态,允许使用不同的替换键(replacement key)和移除键(removal key),突破只能使用相同键更新状态的限制。RWKV-7 引入动态状态演化机制,谷歌 Titans 重新定
31、义长程记忆核心思想状态表示更新机制模仿人类记忆系统,引入神经长期记忆模块 Neural Long-Term Memory,动态调整衰减率,实现自适应记忆管理,提高模型的泛化能力和推理性能。加权键值状态 WKV可学习门控衰减因子Titans引入神经长期记忆模块(LMM)能够在测试阶段动态地学习和记忆历史信息,通过梯度下降和动量更新来调整参数,实现对历史数据的压缩和存储。采用自适应遗忘机制和梯度下降方法更新状态不直接存储传统的注意力机制中的 KV,引入内部模型,通过动态计算更新内部模型,实现类人的持续学习。衰减机制基于数据“惊讶度”的自适应衰减机制引入持久记忆机制存储任务相关知识。RWKV-7xL
32、STM 扩展门控强化长期依赖,Mamba-2 突破效率与表达力瓶颈 核心思想状态表示更新机制Mamba-2其他创新衰减机制xLSTM引入残差块架构与模块化集成,将上述记忆结构集成到残差块中,创建了两种互补的块结构:后上投影块(类 Transformer),前上投影块(类状态空间模型)前 Transformer 时代经典 LSTM 架构的现代化革新,引入指数门控、矩 阵 记 忆 和 残 差 连 接 块,解 决 LSTM 无法修改存储决策、有限存储容量和并行化能力缺乏的限制引入新型记忆单元 sLSTM 保留标量存储特点并引入多层混合机制,mLSTM 使用矩阵形式记忆单元通过协方差更新规则更新采用指
33、数门控机制(Exponential Gating),提供更动态的信息过滤能力,引入了新的记忆更新机制允许模型更灵活地融合新旧信息通过归一化状态和额外状态变量稳定训练过程,防止指数激活函数导致的数值溢出论证 Transformer 和 SSM 实际上可以通过“结 构 化 半 可 分 离 矩 阵”(Semiseparable Matrices)在理论上相互连接(State Space Duality),使 Mamba-2 结合 Transformer 的硬件效率和 SSM 的线性复杂度状态矩阵由输入动态生成,实现选择性状态更新采用选择性状态空间模型,允许状态参数根据输入动态调整利用状态空间模型的指
34、数衰减特性,通过低秩分解和块分解矩阵乘法,实现高效的信息传递和长期依赖建模结构化掩码注意力(SMA)构造了一个掩码注意力矩阵 M=QKT L,定义矩阵序列变换 Y=MV,统一了多种现有的新型 RNN 架构变体Time-Mixer 探索高效混合机制,RetNet 重构状态更新路径核心思想状态表示更新机制RetNet衰减机制Time-Mixer利用多尺度混合(Multiscale Mixing)建模复杂时序变化,分别在历史信息提取与未来预测阶段引入不同策略(PDM 与 FMM),通过尺度分解+信息混合提升预测能力与效率采用多尺度表示,即通过下采样获取不同时间粒度的输入序列,每个尺度分别提取趋势项与
35、季节项,构成层次化的状态张量组Past-Decomposable-Mixing(PDM):分解每个尺度的序列为趋势(Trend)与季节(Seasonal),采用季节项自底向上、趋势项自顶向下的双向混合方式。Future-Multipredictor-Mixing(FMM):每个尺度对应一个预测器,预测结果加权求和。非显式指数衰减,但通过尺度抽样(平均池化降采样)隐式实现对细粒度短期信息的削弱、对粗尺度趋势的增强提出 Retention 机制替代注意力机制,保持并行训练的同时引入可递归执行的状态更新结构,兼顾训练并行性与高效推理每个时间步的状态通过 Retention 状态向量表示,隐式包含历史
36、 Token 的影响;支持多尺度 Retention Head,每个 Head 有独立的衰减率,形成多尺度记忆机制(Memory with multi-scale decay)在训练过程中,RetNet 使用并行表示和块状递归表示来高效地利用 GPU 资源,其中块状递归表示通过将输入序列分成块,每个块内并行计算,块之间递归传递信息。在推理过程中,RetNet 使用递归表示,每个时间步的输出通过递归地更新状态向量来获得。通过不同尺度的衰减率()实现。每个保留头被分配不同的 值,这使得模型能够捕捉不同尺度的序列信息。非 Transformer 架构行业热度图RetNetTimeMixerMamba
37、xLSTMTitansRWKVHyena HierarchyLFM架构实现规模实现数量实现热度讨论热度相关研究数量相关研究质量工业热度学术热度1.1.工业热度工业热度实现热度主要关注创新架构的技术社区建设情况、是否开源、是否帮助提供实现工具、商业化进展等情况。实现规模主要关注创新架构在公开平台上实现项目的最大参数规模水平。实现数量主要关注创新架构在公开平台上实现项目的数量。2.2.学术热度学术热度讨论热度主要关注创新架构在技术社群、媒体平台的关注和讨论热度。相关研究数量主要关注创新架构的相关衍生研究论文数量。相关研究质量主要关注创新架构的相关衍生研究论文被引量。架构创新核心 Insight怎么
38、看待近年架构创新涌现?架构创新路线之争:突破智能天花板 or 压缩智能密度Transformer 的高效改进向线性架构路线靠拢线性架构为提高性能,诞生越来越多与 Transformer 混合的 Hybrid 架构高效 Transformer/混合 Hybrid 架构突破智能天花板派选择 Transformer计算复杂度O(n)压缩智能密度派选择非 Transformer/线性 Transformer计算复杂度O(n)哪条路是通往 AGI 之路?随着发展程度深入,两条路线产生越来越多交集,混合架构逐渐成为大趋势非 Transformer/线性 Transformer 由于其先天的高效性、更适合在
39、端侧及小模型场景应用,成为探索智能密度压缩极限路线的最佳选择目前行业内普遍认为在追求智能天花板的路线上,Transformer 架构仍然是无法逾越的高山,但代价是显著增加的计算成本和能耗不惜代价,持续突破性能极限精打细算,提升单位智能密度由于不同机构和主体具备资源条件的不同以及对通往 AGI 路线看法的不同,行业内出现两条主流的技术路线,它们的发展并非完全对立,而是存在交叉怎么看待近年架构创新涌现?架构创新遵循技术迭代周期律:突破、优化、再突破下一代主流架构诞生为解决 Transformer 效率问题,高效 Transformer、非 Transformer 架构研究开始涌现技术突破出现暴力飞
40、轮阶段,持续突破天花板旧范式潜力见顶、增速放缓优化效率阶段,精细雕花或另寻出路新技术突破出现2017 年后,Transformer 架构被提出、验证2019 至2023年,Transformer 架构持续带领大模型突破性能天花板2023 年后,依托 Transformer 架构的传统范式潜力见顶发展阶段早晚智能水平高低目前所在阶段是新技术突破出现前夜这一演化周期律在深度学习历史上曾多次重演,从 CNN 到 RNN 再到 Transformer,每次架构变革似乎都遵循类似模式。下一代主流架构诞生的关键:实现三个 Scaling 台阶的惊险跳跃一个新架构要想从实验室走向工业落地,通常需要跨过三个模
41、型 Scaling 的关键台阶,本报告中提到的新兴架构探索创新绝大部分仍然停留在前两个阶段,甚至刚刚跃过第一个台阶。在这一参数规模上,大多数研究机构和技术公司可以进行有效的 Scaling Law 实验,实验成本相对可控。在这一参数规模上,技术门槛显著提高,需要解决分布式训练、优化算法稳定性、本地部署等问题,只有具备一定技术积累和算力预算的组织能够有效跃过这一台阶。这一参数规模落地要求解决数据质量、模型稳定性、训练效率等复杂问题,需强大基础设施支持,基本只有大厂巨头玩家能够承担。10B20B100B模型参数规模发展阶段Scaling Law 实验行业小模型落地工业级验证下一代主流架构从何处诞生
42、:企业、高校、研究机构架构创新活跃玩家字节跳动 腾讯阿里巴巴DeepSeek月之暗面面壁智能元始智能RockAI阶跃星辰北京大学上海交通大学微软亚洲研究院中科院香港中文大学浙江大学智谱Seed FoundationSeed FoundationHuajian XinHuajian XinZihao HuangZihao HuangQiyang MinQiyang MinHongzhi HuangHongzhi HuangTao ZhanTao Zhang gQiying YuQiying Yu Zheng Zhang Zheng ZhangRuofei ZhuRuofei ZhuYufeng
43、YuanYufeng YuanXiaochen ZuoXiaochen ZuoYu YueYu Yue注:不完全统计,盘点不分排名先后顺序Enzhe LuEnzhe LuXinyu ZhouXinyu ZhouJingyuan LiuJingyuan LiuJianlin SuJianlin SuHaiming WangHaiming WangZhengying LiuZhengying LiuMiniMaxYiran ZYiran ZhonghongAonian LiAonian LiBangwei GongBangwei GongBo YangBo YangBoji ShanBoji Sh
44、anChang LiuChang LiuCheng ZhuCheng Zhu自然语言处理课题组Zewen ChiZewen ChiLingjie JiangLingjie JiangXun WuXun WuHongyu WangHongyu WangShuming MaShuming MaTianzhu YeTianzhu YeLi DongLi DongYuqing XiaYuqing XiaYutao SunYutao SunShaohan HuangShaohan HuangJiaxin GuoJiaxin Guo上海 AI LabYuwen XiongYuwen Xiong,Zhiqi
45、 LiZhiqi LiYuntao ChenYuntao Chen,Feng WangFeng WangZhangyang QiZhangyang Qi,Ye FangYe FangZeyi SunZeyi Sun,Hao LiHao LiFanpingFanping L LiuiuHua YangHua YangDuohai LiDuohai LiShiman LiShiman LiBo PeBo PengngHuazuo GaoHuazuo GaoJunyu LuoJunyu LuoJingyang YuanJingyang YuanDamai DaDamai DaChengqi Deng
46、Chengqi DengZ.Z.RenZ.Z.RenZhihong ShaoZhihong ShaoJunxiao SongJunxiao SongLiang ZhaoLiang ZhaoZhengyan ZhangZhengyan ZhangYu ZhouYu ZhouYuanwei LuYuanwei LuJingcheng HuJingcheng HuHouyi LiHouyi LiYinmin ZhangYinmin ZhangZili WangZili WangXiangyu ZhangXiangyu ZhangGuoyang ZengGuoyang ZengYuge TuYuge
47、TuKhai Hao MooKhai Hao MooZhiyuan LiuZhiyuan LiuMingsheng LongMingsheng LongZhiyuan LiuZhiyuan LiuPeng CuiPeng CuiTianzhu YeTianzhu YeYutao SunYutao SunGao HuangGao HuangYifan PuYifan PuZhuofan XiaZhuofan XiaJiayi GuoJiayi GuoYifan ZhangYifan ZhangYang YuanYang YuanAndrew C YaoAndrew C YaoYuxuan Wan
48、gYuxuan WangHaixu WuHaixu WuTHUNLPTHUNLP,IIISIIIS,Leap LabLeap Lab,SIA-LabSIA-Lab清华大学 Zhaokai WangZhaokai WangWeinan ZhangWeinan ZhangCewu LuCewu LuMinyi GuoMinyi GuoJunchi YanJunchi YanJun WuJun WuYong YuYong YuChangyao TianChangyao TianXiaogang WangXiaogang WangHongsheng LiHongsheng LiEpic LabEpic
49、 LabAI Security LAI Security LababXunhao LaiXunhao LaiQingxiu DongQingxiu DongShiliang ZhangShiliang ZhangJiaying LiuJiaying LiuWen GaoWen GaoZhouchen LinZhouchen LinLingyu DuanLingyu DuanYonghong TianYonghong TianYunhai TongYunhai TongChao XuChao XuBoxin ShiBoxin ShiYuxin PengYuxin PengJian ChengJi
50、an ChengYu QiaoYu QiaoXilin ChenXilin ChenHanqing LuHanqing LuQingming HuangQingming HuangZhengguang WuZhengguang WuXiaowei ZhouXiaowei ZhouHujun BaoHujun BaoZhou ZhaoZhou ZhaoFei WuFei WuGuanding YuGuanding YuYueting ZhuangYueting Zhuang北京航空航天大学Xianglong LiuXianglong LiuYunhong WangYunhong WangBaoc
51、hang Baochang ZhangZhangMai XuMai XuBai XiaoBai Xiao微信号:Qbitbot020量子位智库小助手关于量子位智库:关于量子位智库:量子位旗下科技创新产业链接平台。致力于提供前沿科技和技术创新领域产学研体系化研究。面向前沿AI&计算机,生物计算,量子技术及健康医疗等领域最新技术创新进展,提供系统化报告和认知。通过媒体、社群和线下活动,基于专题技术报道及报告、专项交流会等形式,帮助决策者更早掌握创新风向。关于量子位:关于量子位:量子位(QbitAI),专注人工智能领域及前沿科技领域的产业服务平台。全网订阅超过500万用户,在今日头条、知乎、百家号及各大科技信息平台量子位排名均为科技领域TOP10,内容每天可覆盖数百万人工智能、科技领域从业者。