《华为:2025华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践技术报告(29页).pdf》由会员分享,可在线阅读,更多相关《华为:2025华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践技术报告(29页).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践樊玉伟,郑灵超,李勇锋,区晓峰,李 君,Ken Zhang,韩 伟,李 亿杜霄鹏,王鹏程,刘杰,董谷音,梁泓,柳伊扬,廖崎臣,高雪健王鹏宇,赵毅,王翔,林栋,练韵文,林清扬,陈衎,庞西豹吕俊龙,兰龙文,张维熹,丁益斌,高宇,陶壮,张弓,谢冬辉范港华,范峻逸,胡琤球,李宝,郑乐文,陈付恺,申智好,金颖华为技术有限公司2025 年 5 月 19 日摘要本报告旨在探讨华为昇腾服务器上部署 DeepSeek V3/R1 推理的最佳实践。为满足不同推理场景的需求,本文提供两种不同的部署形态。第一种是基于华为 CloudMatrix 384 超
2、节点的大规模 EP 部署策略:为充分发挥 CloudMatrix 384 的独特组网优势,使用其中的144 张卡作为一个 Decode 实例,以实现较低时延下的高并发,当前已达到了 50ms 时延约束下每卡输出 1920 Tokens/s。第二种是基于 Atlas 800I A2 服务器的小规模 EP 部署策略:使用 4 节点 A2 服务器作为一个 Decode 实例,以实现较优吞吐下的灵活部署,当前达到了100ms 时延约束下每卡输出 723808 Tokens/s。我们采用基于 vLLM 的部署框架,并面向昇腾服务器进行修改以适配 EP/DP/TP 混合并行策略,同时满足灵活调度和极致性能
3、的需求。模型层面,采用 A8W8(INT8)的动态量化方式,并使用 Multi-Token Prediction 技术进行加速。针对昇腾芯片和昇腾服务器组网特征,从数学上重新审视模型的推理过程,选用了合适的并行方式和计算逻辑,同时还充分利用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖,实现模型层面的性能极致。算子层面,提出了多种结合数学等价变换、融合算子、缓存复用和流水掩盖等技术的计算和通信算子的优化方案,使 MLA、MoE 和通信算子达到预期的算力利用率、访存带宽和通信带宽。本报告将详细介绍上述两套部署方案,并列出关键的特性和优化技术,更详细的技术细节之后会陆续
4、公开。1目录1引言32昇腾服务器和组网52.1昇腾芯片.52.2Atlas 800I A2 服务器.52.3CloudMatrix 384 超节点.63DeepSeek V3/R1 模型部署方案63.1模型与框架配置.63.2Atlas 800I A2 部署方案.83.3CloudMatrix 384 超节点部署方案.124框架侧性能优化144.1API Server 扩展技术.144.2MoE 模型负载均衡.155模型侧性能优化155.1模型侧通信优化.155.2模型侧并发方案.175.3推理投机框架 FusionSpec.186昇腾算子性能优化196.1MLA 算子优化.196.2MoE
5、通信算子优化.207性能分析217.1Atlas 800I A2 性能分析.217.2CloudMatrix 384 超节点性能分析.248下一步工作2521引言DeepSeek V3/R1 作为业界领先的开源大语言模型,已在自然语言处理、代码生成、知识推理等多个领域展现出卓越的应用价值。DeepSeek 团队于 3 月份推出了迭代版本 DeepSeekV3-0324 4,加强其代码和数学能力,并于 4 月份发布具备更强数学定理证明能力的DeepSeek-Prover-V2-671B 11。这两款新的模型与原始 DeepSeek V3 架构完全兼容,仅需进行参数差异化配置的权重调整,便可实现既
6、有模型部署方案的无缝迁移。这一设计不仅降低了技术迭代的边际成本,更有效扩大了 DeepSeek V3 系列模型的使用范围。本报告分享当前在昇腾服务器上高性能 DeepSeek V3/R1 部署方案的最佳实践,包括具体的部署方案和关键优化特性的简单介绍。关键优化特性的详细报告将于近期陆续发布。昇腾服务器有多种配置和型号,我们针对近期发布的 CloudMatrix 384 超节点和 Atlas 800IA2 推理服务器两种典型机型进行部署。为了解耦 Prefill 阶段的首 token 时延约束和 Decode 阶段的解码时延约束,同时希望针对不同场景选择最优的部署策略和计算流程,我们采用 PD