报告预览

03-面向 LLM 的高效计算：基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf

编号：620996

PDF 37页 2.34MB 下载积分：VIP专享

下载报告请您先登录！

03-面向 LLM 的高效计算：基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf

1、面向LLM的高效计算：基于昇腾硬件和Volcano的软硬协同优化Shuqiao Li(Huawei,Senior Engineer)Zicong Chen(Huawei Cloud,Member of Volcano,R&D Engineer)目录节点内拓扑感知调度01昇腾NPU生态支持03跨节点网络拓扑感知调度02Content生产环境中管理算力负载0400背景介绍小结05背景介绍Part 00LLM发展趋势大模型层出不穷：ChatGPT、Claude、Gemini、Qwen、DeepSeek等参数规模持续增长：DeepSeek达671B，GPT-4超万亿计算需求激增:单机单卡已无法满足大模

2、型的训练/推理需求，分布式训练和推理中存在的数据并行、模型并行、流水线并行、专家并行、Prefill与Decode分离等技术已成为关键MaaS商业化困境与性能博弈：模型即服务（MaaS）模式面临盈利难题，但行业竞争迫使企业持续投入。模型性能直接影响用户体验和运营成本，优化计算效率成为关键。LLM全栈架构：分层协同赋能高效训练与推理Volcano AI生态北向AI框架支持：支持TensorFlow、PyTorch等主流训练框架，支持vLLM等主流推理框架。生态层框架可通过Volcano PodGroup实现Gang Scheduling，并结合Volcano Queue进行精细化资源配额控制南向

3、硬件支持：vGPU/MIG调度昇腾NPU调度支持使用网络拓扑信息发现工具，提供HyperNodeCRD，提升训练/推理任务网络通信效率昇腾NPU/GPU节点内拓扑需要支持：昇腾NPU亲和性调度HCCS拓扑感知调度GPU拓扑感知调度拓扑感知抢占跨节点网络拓扑感知缺失SPINE1SPINE4SPINE5SPINE8TOR1TOR2TOR3TOR4Task 1Task 2当前现状：跨节点网络拓扑感知缺失：调度器无法识别网络拓扑中的高效通信区域（如同一机架内），频繁通信的任务组（PodGroup）可能被分散到不同机架或节点，可能导致任务间的数据交换路径过长，增加延迟，拖慢训练/推理效率。应用层框架

4、与底层硬件的现状与挑战当前，有一部分的上层应用层框架（如推理框架和训练框架）仍无法完全对底层硬件无感，导致硬件性能无法充分发挥。推理框架训练框架节点内拓扑感知调度Part 01节点内昇腾NPU亲和性调度在昇腾硬件产品内部，有三种芯片链接方式。他们的调度优先级为：优先将任务调度到同一张推理卡或者训练卡内的昇腾AI处理器中；其次调度到使用HCCS互联的昇腾AI处理器中；最后调度到使用PCIe互联的昇腾AI处理器中。HCCS（Huawei Cache Coherence System）是HCCL（Huawei Collective Communication Library）的硬件形态，HCCL提供

5、了深度学习训练场景中服务器间高性能集合通信的功能。昇腾AI处理器互联方式昇腾NPU调度流程NPU调度流程 NPU Device Plugin组件上报NPU健康状态和拓扑信息，更新到configMap deviceinfo-nodeName 中。用户创建业务job。Volcano组件通过configmap获取当前可用的NPUNPU调度流程详情见：昇腾AI处理器的调度流程昇腾NPU调度流程NPU调度流程Volcano根据亲和性调度原则，将NPU分配的结果写入Pod的Annotations字段中，随后把Pod Bind到节点kubelet监测到有Pod调度到自己所在节点，挂载NPU设备。NPU De

6、vice Plugin更新configmap中的NPU分配情况。NPU调度流程详情见：昇腾AI处理器的调度流程跨节点网络拓扑感知调度Part 02技术背景在AI大模型训练与推理场景中，超节点架构通过整合多个计算节点，为用户提供高效、可扩展的计算能力，已成为行业主流趋势。然而，随着各家厂商纷纷构建自有超节点方案，统一的资源管理和调度方案缺失问题日益凸显。特别是在模型并行技术下，模型被拆分到多个计算节点上，导致训练/推理过程中节点间需频繁交换海量数据（如梯度、参数等）。此时，网络传输性能直接决定整体效率，跨节点通信成为关键瓶颈。当前存在以下挑战和需求：数据中心网络类型多样（如InfiniBand、

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（03-面向 LLM 的高效计算：基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。