03-面向 LLM 的高效计算:基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf

编号:620996 PDF 37页 2.34MB 下载积分:VIP专享
下载报告请您先登录!

03-面向 LLM 的高效计算:基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf

1、面向LLM的高效计算:基于昇腾硬件和Volcano的软硬协同优化Shuqiao Li(Huawei,Senior Engineer)Zicong Chen(Huawei Cloud,Member of Volcano,R&D Engineer)目录节点内拓扑感知调度01昇腾NPU生态支持03跨节点网络拓扑感知调度02Content生产环境中管理算力负载0400背景介绍小结05背景介绍Part 00LLM发展趋势大模型层出不穷:ChatGPT、Claude、Gemini、Qwen、DeepSeek等参数规模持续增长:DeepSeek达671B,GPT-4超万亿计算需求激增:单机单卡已无法满足大模

2、型的训练/推理需求,分布式训练和推理中存在的数据并行、模型并行、流水线并行、专家并行、Prefill与Decode分离等技术已成为关键MaaS商业化困境与性能博弈:模型即服务(MaaS)模式面临盈利难题,但行业竞争迫使企业持续投入。模型性能直接影响用户体验和运营成本,优化计算效率成为关键。LLM全栈架构:分层协同赋能高效训练与推理Volcano AI生态北向AI框架支持:支持TensorFlow、PyTorch等主流训练框架,支持vLLM等主流推理框架。生态层框架可通过Volcano PodGroup实现Gang Scheduling,并结合Volcano Queue进行精细化资源配额控制南向

3、硬件支持:vGPU/MIG调度 昇腾NPU调度 支持使用网络拓扑信息发现工具,提供HyperNodeCRD,提升训练/推理任务网络通信效率昇腾NPU/GPU节点内拓扑需要支持:昇腾NPU亲和性调度HCCS拓扑感知调度GPU拓扑感知调度拓扑感知抢占跨节点网络拓扑感知缺失SPINE1SPINE4SPINE5SPINE8TOR1TOR2TOR3TOR4Task 1Task 2当前现状:跨节点网络拓扑感知缺失:调度器无法识别网络拓扑中的高效通信区域(如同一机架内),频繁通信的任务组(PodGroup)可能被分散到不同机架或节点,可能导致任务间的数据交换路径过长,增加延迟,拖慢训练/推理效率。应用层框架

4、与底层硬件的现状与挑战当前,有一部分的上层应用层框架(如推理框架和训练框架)仍无法完全对底层硬件无感,导致硬件性能无法充分发挥。推理框架训练框架节点内拓扑感知调度Part 01节点内昇腾NPU亲和性调度在昇腾硬件产品内部,有三种芯片链接方式。他们的调度优先级为:优先将任务调度到同一张推理卡或者训练卡内的昇腾AI处理器中;其次调度到使用HCCS互联的昇腾AI处理器中;最后调度到使用PCIe互联的昇腾AI处理器中。HCCS(Huawei Cache Coherence System)是HCCL(Huawei Collective Communication Library)的硬件形态,HCCL提供

5、了深度学习训练场景中服务器间高性能集合通信的功能。昇腾AI处理器互联方式昇腾NPU调度流程NPU调度流程 NPU Device Plugin组件上报NPU健康状态和拓扑信息,更新到configMap deviceinfo-nodeName 中。用户创建业务job。Volcano组件通过configmap获取当前可用的NPUNPU调度流程详情见:昇腾AI处理器的调度流程昇腾NPU调度流程NPU调度流程Volcano根据亲和性调度原则,将NPU分配的结果写入Pod的Annotations字段中,随后把Pod Bind到节点kubelet监测到有Pod调度到自己所在节点,挂载NPU设备。NPU De

6、vice Plugin更新configmap中的NPU分配情况。NPU调度流程详情见:昇腾AI处理器的调度流程跨节点网络拓扑感知调度Part 02技术背景在AI大模型训练与推理场景中,超节点架构通过整合多个计算节点,为用户提供高效、可扩展的计算能力,已成为行业主流趋势。然而,随着各家厂商纷纷构建自有超节点方案,统一的资源管理和调度方案缺失问题日益凸显。特别是在模型并行技术下,模型被拆分到多个计算节点上,导致训练/推理过程中节点间需频繁交换海量数据(如梯度、参数等)。此时,网络传输性能直接决定整体效率,跨节点通信成为关键瓶颈。当前存在以下挑战和需求:数据中心网络类型多样(如InfiniBand、

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(03-面向 LLM 的高效计算:基于昇腾硬件和 Volcano 的软硬协同优化 -Shuqiao LiZicong Chen.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠