《华为盘古团队:2025年Pangu Ultra MoE 模型架构与训练方法技术报告(16页).pdf》由会员分享,可在线阅读,更多相关《华为盘古团队:2025年Pangu Ultra MoE 模型架构与训练方法技术报告(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、Huawei Proprietary-Restricted Distribution2Huawei Cloud Pangu Models IconHuawei Cloud Pangu Industry Models IconTechnical ReportPangu Ultra MoE模型架构与训练方法华为盘古团队AbstractPangu Ultra MoE是一款在Ascend NPU平台上全流程开发的准万亿参数MoE大模型,其性能上在开源评测集上达到一流水平。本文旨在全面介绍Pangu UltraMoE面向超大规模参数与高稀疏比场景下所采用的关键技术方案,涵盖模型架构、训练方法和高效推理系
2、统等方面。在模型架构方面,Pangu Ultra MoE引入了DSSN稳定结构与TinyInit小初始化策略,有效缓解训练初期的梯度波动,显著提升模型的稳定性与收敛效率。针对高稀疏比MoE架构中的负载不均问题,我们设计了EP-Group Auxiliary Loss,在专家并行组粒度引入正则项,兼顾通信效率与正则强度,实现专家激活均衡并促进特化。后训练阶段结合强化学习,进一步增强模型的数据利用效率与能力协同,缓解能力增长不均衡。我们还探索了通过扩展Multi-Token Prediction(MTP)多头能力,支持多token投机推理,后续可用于Pangu Ultra MoE以提升模型生成质量
3、和推理速度。在推理系统方面,Pangu Ultra MoE构建了融合大算子、推理框架与调度算法的协同加速方案。基于Ascend NPU平台,并结合W4A4全量化,显著压缩推理过程中的计算与显存开销,充分释放Atlas 800I A2/A3的算力与带宽潜力。综上所述,Pangu Ultra MoE在模型稳定性、训练效率与推理性能方面实现了系统性优化,展现出高稀疏比大模型在硬件受限环境下的良好扩展性与工程可行性。通过软硬件协同设计,模型在保障训练稳定的同时有效压缩了推理成本,并提升了整体吞吐性能,体现出稀疏化技术在构建超大规模模型中的应用潜力,为大模型稀疏架构的发展与落地提供了重要参考。1目录1引
4、言32Pangu Ultra MoE模型架构和训练方法32.1基础架构与模型效果.42.2范数稳定的模型架构.52.3专家负载均衡优化.62.4MTP扩头策略.82.5迭代式强化学习.103推理优化113.1并行优化.113.1.1并行策略.113.1.2融合大算子.123.2量化压缩优化.133.2.1W8A8量化.133.2.2W4A4量化.133.2.3KV量化.134结论1421引言随着大语言模型(Large Language Model,LLM)在通用智能领域取得突破性进展,模型规模持续扩展成为提升能力的主要路径13,17,4,8,6,1,2。然而,训练百亿甚至千亿参数模型所需的算力
5、与成本居高不下,训练稳定性亦面临严峻挑战。因此,构建更加高效可扩展的模型架构,已成为业界广泛关注的研究方向。在此背景下,稀疏的混合专家模型(Mixture-of-Experts,MoE)11因其显著降低计算开销并提高参数利用率而受到高度关注,成为构建超大规模模型的重要技术选项。MoE结构在保持模型容量的同时显著降低了训练和推理成本8,逐步在实际系统中落地。然而,MoE架构也引入了一系列新问题,例如梯度范数剧烈波动、专家负载不均衡、训练推理方式不一致等,这些问题严重限制了其可扩展性和部署效果。在MoE的探索上,此前发表的技术报告Pangu Ultra MoE 15展示了整体的MoE设计,并讲解了
6、在基础设施上的优化,性能上在开源评测集上达到一流水平。本文针对MoE模型训练与推理中的关键瓶颈所进行的一系列架构设计与策略优化,包括归一化结构、参数初始化、负载均衡机制、推理效率提升、量化压缩以及专家激活剪枝等多个技术维度进行系统阐述。PanguUltraMoE在模型稳定性方面继承了PanguUltra19基于深度缩放的Depth-ScaledSandwich-Norm与TinyInit,两者结合有效缓解了梯度范数突刺问题,提升了训练的稳定性与收敛效率。在负载均衡方面,设计了专家并行组粒度的辅助损失函数(EP-Group Auxiliary Loss),在正则强度与通信代价间取得了良好平衡,从
7、而显著改善专家负载不均衡的问题。此外,我们还探索了Multi-Token Prediction(MTP)多头扩展训练以及多token的投机推理机制,后续可用于提升PanguUltra MoE训练和推理的效率。进一步地,在模型后训练阶段,我们构建了强化学习训练系统,增强数据效率,保障多能力协同优化,有效避免能力提升的不均衡问题。在推理方面,Pangu Ultra MoE进行了多层次优化。通过PD分离并结合vLLM调度策略及多种并行配置,在Ascend 910集群上显著提升了推理吞吐并降低延迟;融合大算子和通信优化有效提升了NPU利用率;量化方面引入W8A8/W4A4/KV压缩等多级量化机制,在保
8、持精度的前提下提升了内存与计算效率。综上所述,Pangu Ultra MoE展示了在超大规模MoE模型构建中兼顾稳定性、性能与效率的系统性设计方案,并通过精细推理优化与激活压缩策略,推动稀疏架构在实际部署中的落地。接下来的章节将详细介绍Pangu Ultra MoE的架构设计、训练机制、推理系统、实验评估及工程经验,深入剖析其关键技术细节与设计动因。2Pangu Ultra MoE模型架构和训练方法Pangu Ultra MoE的设计围绕充分释放Ascend NPU平台的计算潜力展开,在结构的选择上采用自主开发的系统级模拟器进行搜索,得到兼顾计算效率、存储约束与通信开销的模型。本文将系统介绍P
9、angu Ultra MoE的核心架构特性、范数稳定策略、负载均衡优化机制与多Token推理加速方法,展示其如何在硬件资源与模型性能之间取得高效折中。32.1基础架构与模型效果在针对Ascend NPU平台的大模型系统设计中,我们结合计算、通信与内存等多方面因素,构建了完整的系统级模拟器,并基于约一万个不同的MoE架构组合,系统性地进行了架构搜索。最终得到一个约718B参数量的结构,它有61层,隐层大小为7680,每一层的注意力模块有128个头,每层MoE结构包含1个共享专家与256个路由专家,每个token激活8个专家,每个路由专家FFN中间维度均为2048。具体的搜索细节可以参考文档15。
10、在Ascend NPU上的亲和性优化特性:结合Ascend平台的架构特性与模拟结果,我们对最终选中的模型结构进行如下分析:隐藏维度贴合硬件:设置7680维隐藏层,精准匹配DaVinci芯片的1616 MatMul单元,充分发挥Cube核心的计算潜力。层数亲和流水线并行:设置61层Transformer结构,并预留额外MTP层空间,保障计算负载均衡的PP/VPP流水线调度,减少pipeline气泡,提升整体并行效率。专家规模符合幂次规律:路由专家数量设为 28=256,在TPEP并行下提升All-to-All通信效率,有效加速分布式训练。Pangu Ultra MoE的架构和训练优化特性:在模型
11、架构设计与训练流程中,我们亦引入了多项关键优化:超大规模和超高稀疏比:采用256个路由专家,每个token激活8个专家,模型总参数量718B,激活参数量为39B。MLA注意力机制:引入MLA(Multi-head Latent Attention),有效压缩KV Cache空间,缓解推理阶段的内存带宽瓶颈,优于传统GQA方案。MTP多头扩展:采用单头MTP进行训练,后续复用MTP参数扩展至多头结构,实现多Token投机推理,加速整体推理过程。Dropless训练:采用Dropless训练可以避免Drop&Pad训推不一致问题,并且提升训练的数据效率。RL训练:采用迭代难例挖掘与多能力项均衡的奖
12、励函数,并参考GRPO算法,提升了模型的训练效率与最终推理性能。Pangu Ultra MoE的预训练阶段在6k到10k张NPU上进行,全流程采用dropless训练模式。预训练阶段进行了长序列扩展,最终模型具备128k长序列能力。在后训练阶段,Pangu Ultra MoE移除了负载均衡辅助损失,保留专家间已有的特化能力,从而进一步提升模型对目标数据的学习效率。最终模型在多个权威开源评测集上展现出稳健性能,如表1所示,整体效果具备一定优势。4表1:Pangu Ultra MoE与其他代表性MoE指令模型在多种评估通用语言理解与推理能力的基准任务上的比较。每行中加粗的数值表示该项最佳结果,星号
13、()表示由我们自行测试所得结果。BenchmarkQwen2.5MiniMaxDeepSeekDeepSeekPangu Ultra MoEPlusText-01V3-0324R1ArchitectureMoEMoEMoEMoEMoE#Activated Params-46B37B37B39B#Total Params-456B671B671B718BGeneralC-Eval-87.991.890.8CLUEWSC-94.392.894.8C-SimpleQA-67.472.463.770.3IF-Eval86.389.185.983.384.9MMLU-88.587.490.891.5MM
14、LU-Pro72.575.781.284.083.5ReasoningAIME2024-59.479.881.3AIME2025-39.870.070.0GPQA-Diamond-54.468.471.575.3LiveCodeBench51.4-49.265.964.3MBPP+-71.777.381.281.2MATH500-94.097.397.42.2范数稳定的模型架构在大规模模型的训练过程中,模型的稳定性和性能优化显得尤为关键。随着模型规模的增加,训练过程普遍会出现梯度范数不稳定的问题,表现为频繁的梯度范数突刺现象,这通常是由于模型结构复杂、网络深度增加以及参数初始化不当等原因引起的
15、。这显著影响了模型的收敛速度和最终性能。为了提高模型的训练稳定性,归一化和参数初始化方法起着至关重要的作用。归一化能够有效调节特征或激活的尺度,确保梯度在网络中更加平稳地传播,避免梯度过大或过小导致的优化困难。良好的参数初始化则能使网络参数分布更合理,减少网络初期的不稳定波动,加快模型收敛速度,并提升最终性能。Pangu Ultra MoE延续了Pangu Ultra 19稠密模型的设计理念,继续应用了Depth-Scaled Sandwich-Norm(DSSN)和TinyInit方法,以更有效地稳定梯度并提高训练过程的稳健性。经过实践验证,获得了与稠密模型一致的结论,即此设计能够显著增强模
16、型的稳定性,并加快收敛速度。Depth-Scaled Sandwich-Norm(DSSN):传统的Pre-LN结构容易因为子层输出规模波动而导致训练不稳定。为解决这一问题,DSSN在每个子层输出后加入额外的层归一化,并引入深度缩放的初始化方式。具体地,通过将层归一化的可训练 参数初始化为与网络深度的平方根成反比的数值,从而稳定网络各层的输出尺度。这种结构能够有效抑制梯度爆炸或消失,降低梯度范数波动,提升模型的收敛性。DSSN的具体计算公式如下:5hh+Norm(attn,ATTN(Norm(h),attn=cattnL,hh+Norm(mlp,MLP(Norm(h),mlp=cmlpL,(1
17、)其中,L 为模型的层数,cattn和 cmlp分别为注意力层与前馈网络(FFN)层初始输出的标准差。在Pangu Ultra MoE中,设定 attn为0.036,mlp为0.019。TinyInit方法:模型初始化对训练稳定性与性能至关重要。现有研究表明初始化尺度影响模型在推理与记忆任务上的表现。Transformer模型通常采用较小的初始化尺度,而TinyInit方法提出了一种同时考虑模型深度与宽度的初始化方案,即采用标准差为12dL的初始化方式,其中d 为隐藏维度,L 为模型层数。这种方法能够在模型中获得更一致的参数尺度,有助于优化和收敛。此外,对于嵌入层,实验表明采用标准差为0.5的
18、初始化能够实现较佳的训练稳定性和模型性能。stepnorm3UH/1,QLWHHS6HHN(a)Pre-LN/Init0.006(DeepSeek初始化)梯度范数。突刺比例:1.54%。020004000600080001000012000step101100normDSSN/TinyInit(b)DSSN/TinyInit梯度范数。突刺比例:0.76%。图1:训练过程的梯度范数对比图。其中,黑色实线是突刺分界线。为了验证范数稳定架构在MoE模型中的效果,我们对比了两个设置,即DSSN/TinyInit和Pre-LN/Init0.006,其中Init0.006表示在DeepSeek-V3 8中
19、的0.006标准差初始化。结果如图1所示,在2500步到11000步的训练过程中,使用范数稳定的突刺比例为0.76%,相对的基线突刺量为1.54%,因此突刺量减少了51%。DSSN和TinyInit方法的结合显著提高了训练的稳定性,有效缓解了梯度范数的频繁突刺问题。此外,TinyInit的深度与宽度自适应初始化方案超越了传统固定初始化方式,使训练更高效且更具扩展性。综合而言,这两种方法能够有效降低大规模深度学习模型训练过程中的梯度范数波动,促进模型更快速、更稳定地收敛至理想的训练效果。DSSN和TinyInit被应用到Pangu Ultra MoE中实现了在昇腾NPU上的10+T数据的长稳训练
20、。2.3专家负载均衡优化在混合专家模型(MoE)训练过程中,由于每个token只会被分配给一部分专家,因此容易出现负载不均衡的情况。负载不均衡指的是不同专家被分配的token数量存在显著的差距。当采用专家并行策略(expert parallelism,EP)时,负载不均衡会影响计算效率,被分配过多token的专6家会成为计算瓶颈,而其他专家则处于低利用率状态。同时负载过低的专家可能存在训练不充分的问题,影响最终的模型效果。因此如何使token更均衡地分布至不同专家,对提高混合专家模型的训练效率和效果非常重要。为了保证负载均衡,一般通过增加辅助的负载均衡loss来鼓励token在专家之间均衡分布
21、。然而,如果负载均衡loss过度的约束token分配的均衡性,也会影响模型路由的表达能力。现有的负载均衡loss一般是约束单个序列或者单个micro batch内tokens分配的均衡性,而我们发现对于采用专家并行策略训练的模型,可以设计一种对模型路由约束更小,同时不影响计算均衡性的EP-Group负载均衡loss。具体而言,序列级负载均衡loss基于单个序列内部的tokens统计来衡量专家负载,其计算方式如下:sequence-level=Ni=1fipi,其中 fi表示专家 i 在序列中的选择频率,pi为其平均门控得分,计算公式如下:fi=NKTtT?Tokentselects Exper
22、ti,pi=1TtTsi,t,(2)其中 K 为每个token激活的专家数量,T 为序列长度,si,t表示tokent 对专家 i 的门控得分。Micro-batch级的正则项在多个序列基础上聚合tokens分布(如Megatron-LM默认实现),进一步扩大了平衡统计范围。然而,在大规模MoE模型训练中,为了节省显存,常需将每卡micro-batch尺寸设置为极小(接近或等于1),此时micro-batch级损失与序列级损失近似。序列级或micro-batch级的负载均衡loss,会约束单个序列或者单个micro batch内的token路由的均衡性。而单个序列往往是来自同一领域的数据,过度
23、的均衡可能影响专家特化。EP-Group负载均衡loss:为了解决上述问题,我们提出在EP-group粒度下计算的负载均衡损失。当采用了专家并行,专家会被分配到不同卡上进行并行计算。每块卡上的专家会接收来自EP组内所有卡上的micro batch路由而来的token。所以我们可以设计一个负载均衡loss,来约束EP组内所有micro batch路由到组内专家之后的均衡性。这相当于把EP组内部的所有micro batch合起来计算负载均衡的loss。具体而言,我们在每个专家并行进程组内部执行 all-reduce 操作,聚合token选择频率,从而得到每个专家的负载比例 fi。其损失形式为:EP
24、-group=Ni=1fipi,其中 fi和 pi的定义与上文相同。在我们开发EP-Group负载均衡loss的同时,我们注意到同期的Global-Batch级负载均衡loss10与我们的方法存在相似性。Global-Batch均衡损失函数相比EP-Group均衡损失函数,相当于以更大的batch去计算负载均衡,进一步降低了对路由的约束,而EP-Group负载均衡loss则可以更好的控制EP并行的计算均衡性。不同粒度负载均衡loss策略的统计范围与正则强度对比详见表2。为了验证EP-Group负载均衡loss的效果,我们使用一个20B参数量激活1.6B的MoE模型进行了100B数据量的对比实验
25、,结果如表3所示。可以看到EP-Group负载均衡loss在大部分任务7表2:不同粒度辅助损失策略的对比。Balance BSZ表示统计专家选择频率时所考虑的token数量。T 为序列长度,DP EP 表示数据并行组通常大于专家并行组,未考虑梯度累积场景。Auxiliary Loss LevelBalance BSZRegularization StrengthSequenceTStrongest(local)Micro-Batchmicro_batch_size TStrong(local)EP-GroupEP micro_batch_size TMediumDP-GroupDP micro
26、_batch_size TWeakest(global)上都有显著的优势,平均提升了1.5个百分点。同时我们对Pangu Ultra MoE的专家特化进行了分析,结果如图2所示,我们可以看到不同领域的数据对专家的选择存在显著的差异,这表明EP-Group负载均衡loss给模型提供了灵活的路由选择空间,促进了专家特化。表3:Micro-batch和EP-Group的auxiliary loss效果比较。Aux LossEN basicZH basicLAMBADAWPLCC-EvalMMLUBIG-bench(aug)AverageMicro-batch0.3780.4340.6090.1430
27、.2570.3000.2770.343EP-Group0.4020.4390.6200.1380.2840.3280.2970.358Z-loss 20对模型训练的影响:在MoE模型中,Z-loss是一种常见的正则项,主要用于约束路由的输出值。具体来说,Z-loss会惩罚路由输出的logit较大的情况,从而鼓励其输出更加平滑、分布更均匀的概率分布。这种设计的动机是防止路由输出过大的值导致过于极端的专家选择,从而带来训练不稳定的问题。在实践中,Z-loss通常表现出良好的稳定训练作用,尤其是在模型初始化阶段或者训练早期阶段。通过抑制路由logit的过大增长,Z-loss有助于避免梯度爆炸或者某些
28、专家在早期被过度偏好而导致训练崩塌。然而,Z-loss的引入也可能带来一定的副作用。一方面,限制logit的幅度可能会限制路由的表达能力,进而对模型的最终收敛效果产生影响;另一方面,过强的Z-loss可能会导致专家选择趋于平均,从而削弱MoE的路由效果。因此,Z-loss的引入需要根据具体模型的稳定性进行调节。在模型训练过程中,如果观察到路由logit过大或者训练不稳定的现象,可以尝试引入Z-loss或适当调高其权重,以提升训练的稳定性。而在模型趋于稳定、收敛阶段,可以考虑减小或关闭Z-loss,以避免其对最终性能产生负面影响。2.4MTP扩头策略投机推理5是一种常见的推理加速方法,其基本思想
29、是在主模型生成结果之前,利用一个轻量级辅助模型对未来的token进行预测,并通过校验机制决定是否接纳预测结果。该方法通过并行化token生成和验证流程,有效降低了推理过程中的延迟,近年来在大语言模型的部署实践中得到广泛应用。在这一背景下,Multi-Token Prediction(MTP)被提出用于进一步增强投机推理的性能8。MTP在原始模型基础上额外增加一层Transformer,用于模拟输出层的预测行为,从而提升对原始模型logit的拟合能力。在推理过程中,MTP可以利用该机制进行投机性预测,即在主模型尚未正8012345678910111213141516171819202122232
30、4252627282930313233343536373839404142434445464748495051525354555657585960616263enzhmathcodeardefrruLayer 00123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263enzhmathcodeardefrruLayer 28012345678910111213141516171819202122232425262728
31、2930313233343536373839404142434445464748495051525354555657585960616263enzhmathcodeardefrruLayer 570246810Relative Expert Load图2:Pangu Ultra MoE的专家特化。其中ar,de,fr,ru分别代表阿拉伯语,德语,法语,以及俄语。式生成token之前,先行预测下一个甚至多个token,并通过校验机制决定是否采纳,进而显著加速推理过程。在原始设计中,一个MTP头可以预测一个token,而引入多个MTP头则可以实现多个token的并行预测,从而进一步提升推理吞吐量。
32、我们在实践中观察到一个关键现象:多token投机推理的能力,并不需要从训练开始便配置多个MTP头,而是可以在训练后期对单头MTP进行扩展,从而达到类似的推理加速效果。为验证这一策略的有效性,我们使用20B MoE为主干模型,训练185B token。具体对比设置为:以两个token的投机推理为目标,分别训练了从头开始配置单/两个MTP头的模型(即单头从头训练和双头从头训练),以及在单头MTP模型训练至收敛后,通过复制已有头的参数再增训出第二个MTP头的模型。对于扩增的模型,我们对比全参续训以及冻结主干和一头的续训的效果,即双头扩增全参训练和双头扩增冻结训练。我们使用LAMBADA续写作为下游评
33、测任务。结果如图3所示,双头模型在延迟上略高于单头模型,但是在接受长度方面,双头模型接受长度约为单头模型的1.38倍。此外,双头扩增模型的接受长度和延迟基本和双头从头训练一致。在模型效果方面,双头扩增模型全参训练和从零训练保持一致,而由于冻住了主干和一头,双头扩增冻结训练的精度在扩增的位置保持不变。这一发现意味着,后期的MTP扩展能够达到多9%(a)准确率%PV(b)延迟%(c)接受长度图3:20B MoE的MTP在LAMBADA续写上的投机推理结果头的从头训练的投机推理效果,因此在模型训练早期保持较小的MTP配置可以节省显存和计算资源,而在训练后期再行扩展,能够兼顾效率与推理能力。综上,MT
34、P的多token投机能力具有良好的可扩展性,训练策略上也可采用“后期扩展”的方式,即先以单头训练,后期再增头精调,以实现高效的训练与推理折中。数据池RL训练数据RL训练(GRPO)Pangu-Reasoner数学奖励系统代码奖励系统通用奖励模型奖励系统模型更新Pangu-Reasoner难例挖掘图4:Pangu Ultra MoE的强化学习训练系统示意图。2.5迭代式强化学习模型后训练的过程中,团队参考了业界常规的GRPO算法12提升模型的推理性能。然而,在超大参数规模情况下,直接应用GRPO会带来两方面的问题:1.算法训练需要依赖多回复通过率在(0,1)内的数据,随着模型性能的提升,相同pr
35、ompt的推理结果准确率越来越高,导致训练过程中被“浪费”的数据不断增加,降低推理效率;2.模型训练需要兼顾多能力协同提升,包括数学、代码和通用能力等,不同能力项的奖励函数设计会导致模型能力增长上的不匹配,出现“跷跷板”问题。为了解决上述两个实践难题,盘古团队设计了Pangu Ultra MoE的强化学习训练系统,如图4所示,提升了大MoE模型的训练稳定性与推理性能。系统设计的关键在于两个部分:10迭代难例挖掘:系统从初始的数据池中进行多回复推理,选取回复通过率在(0,1)的数据组成RL训练数据池,避免训练过程中优势函数为0的情况。模型更新多步后,重复上述过程,更新RL训练数据池,以保持推理效
36、率最大化。此外,团队还应用了零优势函数掩码(0-adv-mask)的方法,当数据多回复的优势函数为0时,为了避免KL惩罚项抑制模型的更新,对该批数据的产生的梯度置零,以保证模型的正向提升;多能力项奖励系统:为了确保模型多能力项协同提升,数学和代码均采用了基于规则的奖励,例如,数学仅依赖最终答案正确与否来分配0/1的奖励,而代码任务则依赖生成代码所能通过的测试用例比例来给予奖励,通用奖励模型则使用LLM-as-a-judge的方法对生成的回复质量进行评分。所有能力项的奖励最终均进行了归一化处理,保证了模型在多个能力项的综合表现。3推理优化在实现大模型训练效果的同时,Pangu Ultra MoE
37、在推理加速上也做了很多优化工作。为适应Ascend NPU平台的硬件特性,我们围绕多机多卡大EP并行策略、融合大算子、量化压缩加速等方面优化提升Pangu Ultra MoE端到端推理性能。Atlas 800I A3上我们扩展到144卡推理1个增量实例,实现极致低时延,释放带宽互联优势。3.1并行优化我们采用PD分离技术为预填充(prefill)和解码(decode)实例部署不同的并行化策略,实现极致的融合大算子优化降低内存访问开销。我们使用vLLM的多种调度技术来部署模型,包括PagedAttention来消除内存碎片问题,以及NPU推理来隐藏CPU处理开销。我们同时也做了一些调度优化技术,
38、根据输入token数量重新排列请求来优化调度,实现多个NPU之间的负载均衡。通过对生成长度实施桶管理,可以解决连续批处理导致的长尾问题。3.1.1并行策略由于Atlas 800I A2中的计算图编译约束,采用了all-gather分发器。6节点集群(每节点8个NPU卡)在同一交换机内运行,其中节点间通信带宽显著低于节点内带宽。因此,我们分配:2个节点用于计算密集的预填充实例。4个节点用于内存密集的解码实例。如图5所示,预填充实例分别对注意力和FFN模块采用TP16和EP16并行。对于解码实例,我们使用DP4TP8(密集FFN和共享专家)和EP32(路由专家)配置,有效地将内存访问成本分布到各个
39、NPU上,同时保持更大批次大小的容量。我们通过加法结合律变换融合共享专家和路由专家的通信操作来优化通信,从而减少通信量和通信次数。在Atlas 800I A3 384卡集群,我们将EP规模扩展到144卡以获得更低的解码延迟。11Huawei Proprietary-Restricted Distribution1AllgatherAttention(MLA)Prefill:TP16Decode:DP32ReduceScatterShared ExpertFFNGating TopkRouted ExpertFFNDispatchCombinePrefill:EP16Decode:EP32Pre
40、fill:DP16Decode:DP4TP8AllgatherReduceScatter图5:Ascend NPU集群中预填充和解码实例的并行策略。3.1.2融合大算子我们实现了一系列融合大算子以提高模型推理效率:MLA预处理融合大算子:将MLA引入的预处理计算(rope、norm、matmul)融合到一个大型算子中,利用Ascend NPU矩阵乘法单元的计算来隐藏向量单元的计算(rope、norm等),充分利用Ascend NPU矩阵和向量的并行计算能力。加法&RmsNorm&量化:应用残差连接,执行RMS归一化,动态量化激活向量。门控&Top-K:计算门控单元概率,通过稀疏激活选择top-
41、k专家,并重新归一化选择的概率。融合大算子可以减少重复的内存访问。门控&共享专家矩阵乘法&全聚集:融合大算子可以实现计算和通信的并行,减少all-gather通信次数。路由初始化:按专家索引对隐藏状态和概率张量进行排序,然后通过二分搜索确定每个专家的token分配。反量化&Swiglu&量化:对输入进行反量化,在专家线性层之间应用SwiGLU非线性,并重新量化输出。分组矩阵乘法&路由输出重排:以分组批次计算第二个专家线性变换,然后基于路由索引原子性地减少输出。12Atlas 800I A3 NPU实现了MoEDistributeDispatch和MoEDistributeCombine两个融合
42、大算子:利用内存语义的通信技术直接向不同卡上的内存传输数据,减少了本地拷贝和等待数据的开销;通过本地内存筛选和拷贝的机制,减少了数据传输次数和卡间同步开销。3.2量化压缩优化3.2.1W8A8量化在大模型的推理部署中,低比特量化技术已经成为降低显存开销、提升推理效率以及优化整体部署性能的关键手段。W8A8量化将模型权重和激活均压缩至8bit,显著降低了权重存储和推理中间结果对显存的需求。此外,Ascend NPU平台对8bit乘法运算提供原生支持,其峰值算力为16bit浮点运算的两倍。通过充分利用8bit矩阵乘法,W8A8量化不仅降低了访存压力,还显著提升了计算效率,达到更优的推理加速效果。如
43、表4所示,W8A8量化在降低显存占用和提升推理吞吐方面表现出色,显存需求减少约一半,吞吐能力提升20%。此外,不同任务的精度评测结果进一步验证了W8A8量化在精度上几乎无损,具有良好的通用性和部署可靠性。表4:不同量化类型精度和加速效果对比。量化类型显存占用推理吞吐加速比AIME24GPQA-DiamondLiveCodeBenchMATH500FP161.36TB1x81.375.364.397.4W8A8718GB1.2x76.972.063.296.4W8A8-m4a3718GB1.2x76.171.963.696.6W4A4359GB1.25x73.370.862.596.03.2.2
44、W4A4量化W4A4量化进一步将权重与激活压缩至4bit,在显著推动模型计算与存储效率边界的同时,依然能够维持具有竞争力的模型性能。与W8A8相比,W4A4在内存利用率和算力使用效率方面具备更为突出的优势,尤其适用于内存带宽和计算吞吐受限的大规模推理部署场景。然而,更低的数值精度带来了更高的量化难度,特别是在保持数值稳定性与精度可控方面,对量化算法提出了更高要求。为应对上述挑战,我们引入了FlatQuant算法14。该方法通过引入异常值感知的仿射变换,在保持张量结构的同时显著平坦化激活中的离群分布,从而降低了整体的量化误差。此外,FlatQuant采用Kronecker结构的变换矩阵与融合算子
45、设计,兼顾表示能力与计算效率,使得模型在几乎不损失精度的前提下实现了更优的内存利用和更高的推理吞吐性能。如表4所示,W4A4配置在多种任务中均展现出良好的鲁棒性,包括对推理能力和代码生成能力要求较高的复杂任务,验证了其在极限量化条件下的可行性与工程部署价值。3.2.3KV量化KV缓存压缩对于提升大模型推理效率至关重要,特别是在扩展吞吐量、上下文长度和批处理大小方面。量化和稀疏性技术不仅缓解了KV抢占,还提升了推理效率和整体用户体验16,3,9,7,1318。为了在极低精度场景中进一步最小化KV缓存内存使用,KVTuner算法通过硬件优化的混合精度量化实现了推理效率和模型精度之间的最优平衡7。该
46、NPU原生框架采用离线分析和多目标优化来为粗粒度KV缓存块求解帕累托最优的分层KV量化精度对配置。因此,KVTuner的自适应确保了各类模型和场景的无缝兼容性,即使对MoE模型也能保持有效的KV压缩。4结论在本文中,我们详细地补充介绍了Pangu Ultra MoE,一款在Ascend NPU平台上全流程训练的准万亿参数MoE大模型。面对大规模稀疏模型在训练稳定性、推理效率与专家调度方面的诸多挑战,Pangu Ultra MoE在架构设计、训练机制与推理优化等多个维度进行了深入探索并取得显著进展。我们引入了DSSN与TinyInit等结构化设计以提升训练的范数稳定性,提出EP-Group辅助损
47、失实现更高效的专家负载均衡,通过扩展MTP实现多token投机推理,采用Dropless训练范式解决训推不一致问题,并在后训练阶段取消负载均衡loss以强化专家特化表达。此外,在推理阶段,我们融合了多种调度与并行策略,结合W8A8/W4A4/KV等多级量化机制,进一步降低了内存和延迟成本。综合而言,Pangu Ultra MoE展示了稀疏大模型在极大参数规模下实现高稳定性、高效率与高可部署性的可行路径,为MoE类架构在实际系统中的大规模落地提供了切实参考与经验范式。未来,我们希望这些技术手段能持续推动大模型的性能上限与工程普适性向前发展。References1 Meta AI.The llam
48、a 4 herd:The beginning of a new era of natively multimodal ai innovation,2025.2 DeepSeek-AI.Deepseek-r1:Incentivizing reasoning capability in llms via reinforcement learning,2025.3 Suyu Ge,Yunan Zhang,Liyuan Liu,Minjia Zhang,Jiawei Han,and Jianfeng Gao.Model tells youwhat to discard:Adaptive kv cach
49、e compression for llms.arXiv preprint arXiv:2310.01801,2023.4 Albert Q Jiang,Alexandre Sablayrolles,Antoine Roux,Arthur Mensch,Blanche Savary,Chris Bam-ford,DevendraSinghChaplot,DiegodelasCasas,EmmaBouHanna,FlorianBressand,etal.Mixtralof experts.arXiv preprint arXiv:2401.04088,2024.5 Yaniv Leviathan
50、,Matan Kalman,and Yossi Matias.Fast inference from transformers via speculativedecoding.In International Conference on Machine Learning,pages 1927419286.PMLR,2023.6 Aonian Li,Bangwei Gong,Bo Yang,Boji Shan,Chang Liu,Cheng Zhu,Chunhao Zhang,CongchaoGuo,DaChen,DongLi,etal.Minimax-01:Scalingfoundationm
51、odelswithlightningattention.arXivpreprint arXiv:2501.08313,2025.7 XingLi,ZeyuXing,YimingLi,LinpingQu,Hui-LingZhen,WulongLiu,YiwuYao,SinnoJialinPan,and Mingxuan Yuan.Kvtuner:Sensitivity-aware layer-wise mixed precision kv cache quantizationfor efficient and nearly lossless llm inference,2025.148 Aixi
52、n Liu,Bei Feng,Bing Xue,Bingxuan Wang,Bochao Wu,Chengda Lu,Chenggang Zhao,Chengqi Deng,Chenyu Zhang,Chong Ruan,et al.Deepseek-v3 technical report.arXiv preprintarXiv:2412.19437,2024.9 Zirui Liu,Jiayi Yuan,Hongye Jin,Shaochen Zhong,Zhaozhuo Xu,Vladimir Braverman,BeidiChen,and Xia Hu.Kivi:A tuning-fre
53、e asymmetric 2bit quantization for kv cache.arXiv preprintarXiv:2402.02750,2024.10 Zihan Qiu,Zeyu Huang,Bo Zheng,Kaiyue Wen,Zekun Wang,Rui Men,Ivan Titov,Dayiheng Liu,Jingren Zhou,and Junyang Lin.Demons in the detail:On implementing load balancing loss fortraining specialized mixture-of-expert model
54、s.arXiv preprint arXiv:2501.11873,2025.11 Samyam Rajbhandari,Conglong Li,Zhewei Yao,Minjia Zhang,Reza Yazdani Aminabadi,Am-mar Ahmad Awan,Jeff Rasley,and Yuxiong He.Deepspeed-moe:Advancing mixture-of-expertsinference and training to power next-generation ai scale.In International conference on machi
55、nelearning,pages 1833218346.PMLR,2022.12 Zhihong Shao,Peiyi Wang,Qihao Zhu,Runxin Xu,Junxiao Song,Xiao Bi,Haowei Zhang,Mingchuan Zhang,YK Li,Y Wu,et al.Deepseekmath:Pushing the limits of mathematical reasoningin open language models.arXiv preprint arXiv:2402.03300,2024.13 Xingwu Sun,Yanfeng Chen,Yiq
56、ing Huang,Ruobing Xie,Jiaqi Zhu,Kai Zhang,Shuaipeng Li,ZhenYang,Jonny Han,Xiaobo Shu,et al.Hunyuan-large:An open-source moe model with 52 billionactivated parameters by tencent.arXiv preprint arXiv:2411.02265,2024.14 Yuxuan Sun,Ruikang Liu,Haoli Bai,Han Bao,Kang Zhao,Yuening Li,Jiaxin Hu,Xianzhi Yu,
57、Lu Hou,Chun Yuan,et al.Flatquant:Flatness matters for llm quantization.arXiv preprintarXiv:2410.09426,2024.15 Yehui Tang,Yichun Yin,Yaoyuan Wang,Hang Zhou,Yu Pan,Wei Guo,Ziyang Zhang,Miao Rang,Fangcheng Liu,Naifu Zhang,et al.Pangu ultra moe:How to train your big moe on ascend npus.arXiv preprint arX
58、iv:2505.04519,2025.16 Guangxuan Xiao,Yuandong Tian,Beidi Chen,Song Han,and Mike Lewis.Efficient streaming lan-guage models with attention sinks.arXiv preprint arXiv:2309.17453,2023.17 An Yang,Baosong Yang,Beichen Zhang,Binyuan Hui,Bo Zheng,Bowen Yu,Chengyuan Li,Dayi-heng Liu,Fei Huang,Haoran Wei,et
59、al.Qwen2.5 technical report.arXiv preprint arXiv:2412.15115,2024.18 Qingyue Yang,Jie Wang,Xing Li,Zhihai Wang,Chen Chen,Lei Chen,Xianzhi Yu,Wulong Liu,Jianye Hao,Mingxuan Yuan,et al.Attentionpredictor:Temporal pattern matters for efficient llminference.arXiv preprint arXiv:2502.04077,2025.19 Yichun
60、Yin,Wenyong Huang,Kaikai Song,Yehui Tang,Xueyu Wu,Wei Guo,Peng Guo,YaoyuanWang,Xiaojun Meng,Yasheng Wang,et al.Pangu ultra:Pushing the limits of dense large languagemodels on ascend npus.arXiv preprint arXiv:2504.07866,2025.1520 Barret Zoph,Irwan Bello,Sameer Kumar,Nan Du,Yanping Huang,Jeff Dean,Noam Shazeer,andWilliam Fedus.St-moe:Designing stable and transferable sparse expert models.arXiv preprintarXiv:2202.08906,2022.16