1、Huawei Proprietary-Restricted Distribution2Huawei Cloud Pangu Models IconHuawei Cloud Pangu Industry Models IconTechnical ReportPangu Ultra MoE模型架构与训练方法华为盘古团队AbstractPangu Ultra MoE是一款在Ascend NPU平台上全流程开发的准万亿参数MoE大模型,其性能上在开源评测集上达到一流水平。本文旨在全面介绍Pangu UltraMoE面向超大规模参数与高稀疏比场景下所采用的关键技术方案,涵盖模型架构、训练方法和高效推理系
2、统等方面。在模型架构方面,Pangu Ultra MoE引入了DSSN稳定结构与TinyInit小初始化策略,有效缓解训练初期的梯度波动,显著提升模型的稳定性与收敛效率。针对高稀疏比MoE架构中的负载不均问题,我们设计了EP-Group Auxiliary Loss,在专家并行组粒度引入正则项,兼顾通信效率与正则强度,实现专家激活均衡并促进特化。后训练阶段结合强化学习,进一步增强模型的数据利用效率与能力协同,缓解能力增长不均衡。我们还探索了通过扩展Multi-Token Prediction(MTP)多头能力,支持多token投机推理,后续可用于Pangu Ultra MoE以提升模型生成质量
3、和推理速度。在推理系统方面,Pangu Ultra MoE构建了融合大算子、推理框架与调度算法的协同加速方案。基于Ascend NPU平台,并结合W4A4全量化,显著压缩推理过程中的计算与显存开销,充分释放Atlas 800I A2/A3的算力与带宽潜力。综上所述,Pangu Ultra MoE在模型稳定性、训练效率与推理性能方面实现了系统性优化,展现出高稀疏比大模型在硬件受限环境下的良好扩展性与工程可行性。通过软硬件协同设计,模型在保障训练稳定的同时有效压缩了推理成本,并提升了整体吞吐性能,体现出稀疏化技术在构建超大规模模型中的应用潜力,为大模型稀疏架构的发展与落地提供了重要参考。1目录1引
4、言32Pangu Ultra MoE模型架构和训练方法32.1基础架构与模型效果.42.2范数稳定的模型架构.52.3专家负载均衡优化.62.4MTP扩头策略.82.5迭代式强化学习.103推理优化113.1并行优化.113.1.1并行策略.113.1.2融合大算子.123.2量化压缩优化.133.2.1W8A8量化.133.2.2W4A4量化.133.2.3KV量化.134结论1421引言随着大语言模型(Large Language Model,LLM)在通用智能领域取得突破性进展,模型规模持续扩展成为提升能力的主要路径13,17,4,8,6,1,2。然而,训练百亿甚至千亿参数模型所需的算力
5、与成本居高不下,训练稳定性亦面临严峻挑战。因此,构建更加高效可扩展的模型架构,已成为业界广泛关注的研究方向。在此背景下,稀疏的混合专家模型(Mixture-of-Experts,MoE)11因其显著降低计算开销并提高参数利用率而受到高度关注,成为构建超大规模模型的重要技术选项。MoE结构在保持模型容量的同时显著降低了训练和推理成本8,逐步在实际系统中落地。然而,MoE架构也引入了一系列新问题,例如梯度范数剧烈波动、专家负载不均衡、训练推理方式不一致等,这些问题严重限制了其可扩展性和部署效果。在MoE的探索上,此前发表的技术报告Pangu Ultra MoE 15展示了整体的MoE设计,并讲解了
6、在基础设施上的优化,性能上在开源评测集上达到一流水平。本文针对MoE模型训练与推理中的关键瓶颈所进行的一系列架构设计与策略优化,包括归一化结构、参数初始化、负载均衡机制、推理效率提升、量化压缩以及专家激活剪枝等多个技术维度进行系统阐述。PanguUltraMoE在模型稳定性方面继承了PanguUltra19基于深度缩放的Depth-ScaledSandwich-Norm与TinyInit,两者结合有效缓解了梯度范数突刺问题,提升了训练的稳定性与收敛效率。在负载均衡方面,设计了专家并行组粒度的辅助损失函数(EP-Group Auxiliary Loss),在正则强度与通信代价间取得了良好平衡,从