《03-面向 LLM 的高效计算:基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf》由会员分享,可在线阅读,更多相关《03-面向 LLM 的高效计算:基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、面向LLM的高效计算:基于昇腾硬件和Volcano的软硬协同优化Shuqiao Li(Huawei,Senior Engineer)Zicong Chen(Huawei Cloud,Member of Volcano,R&D Engineer)目录节点内拓扑感知调度01昇腾NPU生态支持03跨节点网络拓扑感知调度02Content生产环境中管理算力负载0400背景介绍小结05背景介绍Part 00LLM发展趋势大模型层出不穷:ChatGPT、Claude、Gemini、Qwen、DeepSeek等参数规模持续增长:DeepSeek达671B,GPT-4超万亿计算需求激增:单机单卡已无法满足大模
2、型的训练/推理需求,分布式训练和推理中存在的数据并行、模型并行、流水线并行、专家并行、Prefill与Decode分离等技术已成为关键MaaS商业化困境与性能博弈:模型即服务(MaaS)模式面临盈利难题,但行业竞争迫使企业持续投入。模型性能直接影响用户体验和运营成本,优化计算效率成为关键。LLM全栈架构:分层协同赋能高效训练与推理Volcano AI生态北向AI框架支持:支持TensorFlow、PyTorch等主流训练框架,支持vLLM等主流推理框架。生态层框架可通过Volcano PodGroup实现Gang Scheduling,并结合Volcano Queue进行精细化资源配额控制南向
3、硬件支持:vGPU/MIG调度 昇腾NPU调度 支持使用网络拓扑信息发现工具,提供HyperNodeCRD,提升训练/推理任务网络通信效率昇腾NPU/GPU节点内拓扑需要支持:昇腾NPU亲和性调度HCCS拓扑感知调度GPU拓扑感知调度拓扑感知抢占跨节点网络拓扑感知缺失SPINE1SPINE4SPINE5SPINE8TOR1TOR2TOR3TOR4Task 1Task 2当前现状:跨节点网络拓扑感知缺失:调度器无法识别网络拓扑中的高效通信区域(如同一机架内),频繁通信的任务组(PodGroup)可能被分散到不同机架或节点,可能导致任务间的数据交换路径过长,增加延迟,拖慢训练/推理效率。应用层框架
4、与底层硬件的现状与挑战当前,有一部分的上层应用层框架(如推理框架和训练框架)仍无法完全对底层硬件无感,导致硬件性能无法充分发挥。推理框架训练框架节点内拓扑感知调度Part 01节点内昇腾NPU亲和性调度在昇腾硬件产品内部,有三种芯片链接方式。他们的调度优先级为:优先将任务调度到同一张推理卡或者训练卡内的昇腾AI处理器中;其次调度到使用HCCS互联的昇腾AI处理器中;最后调度到使用PCIe互联的昇腾AI处理器中。HCCS(Huawei Cache Coherence System)是HCCL(Huawei Collective Communication Library)的硬件形态,HCCL提供
5、了深度学习训练场景中服务器间高性能集合通信的功能。昇腾AI处理器互联方式昇腾NPU调度流程NPU调度流程 NPU Device Plugin组件上报NPU健康状态和拓扑信息,更新到configMap deviceinfo-nodeName 中。用户创建业务job。Volcano组件通过configmap获取当前可用的NPUNPU调度流程详情见:昇腾AI处理器的调度流程昇腾NPU调度流程NPU调度流程Volcano根据亲和性调度原则,将NPU分配的结果写入Pod的Annotations字段中,随后把Pod Bind到节点kubelet监测到有Pod调度到自己所在节点,挂载NPU设备。NPU De
6、vice Plugin更新configmap中的NPU分配情况。NPU调度流程详情见:昇腾AI处理器的调度流程跨节点网络拓扑感知调度Part 02技术背景在AI大模型训练与推理场景中,超节点架构通过整合多个计算节点,为用户提供高效、可扩展的计算能力,已成为行业主流趋势。然而,随着各家厂商纷纷构建自有超节点方案,统一的资源管理和调度方案缺失问题日益凸显。特别是在模型并行技术下,模型被拆分到多个计算节点上,导致训练/推理过程中节点间需频繁交换海量数据(如梯度、参数等)。此时,网络传输性能直接决定整体效率,跨节点通信成为关键瓶颈。当前存在以下挑战和需求:数据中心网络类型多样(如InfiniBand、