当前位置:首页 > 报告详情

13-基于 Volcano 的拓扑感知调度方案在大规模 AI 工作负载与多样化网络集群中的应用 -Xiaodong YeYu Zhou.pdf

上传人: 张** 编号:620960 2025-03-31 23页 1.97MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大规模AI工作负载在多样化网络集群中的调度问题。研究者构建了一个包含超过10,000个GPU的集群(MTT KUAE),并针对计算与通信效率、大规模并行计算、数据管道与I/O瓶颈、网络与资源调度等方面进行了优化。文章指出,在集群管理层面,调度与资源分配、健康监控与故障隔离等是系统级挑战;在训练/推理层面,培训效率与模型收敛、推理服务性能等是业务级挑战。此外,文章还介绍了网络监控、故障检测与标签化的相关举措,并提出了HyperNode结构以及Volcano配置的概念。未来工作将聚焦于进一步优化网络拓扑调度功能,并与volcano社区合作。
"大规模GPU集群如何优化调度?" "如何解决大规模AI工作负载的通信瓶颈?" "如何在多租户环境中平衡大作业与小作业的资源分配?"
客服
商务合作
小程序
服务号
折叠