开放数据中心标准推进委员会:2024年面向AI东西向流量的高性能以太网络测试(48页).pdf

编号:602584 PDF 48页 2.77MB 下载积分:VIP专享
下载报告请您先登录!

开放数据中心标准推进委员会:2024年面向AI东西向流量的高性能以太网络测试(48页).pdf

1、面向 AI 东西向流量的高性能以太网络测试编号 ODCC-2024-05004面向面向 AIAI 东西向流量的高性能东西向流量的高性能以太网络测试以太网络测试2024.09 发布开放数据中心标准推进委员会面向 AI 东西向流量的高性能以太网络测试版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合

2、与支持。面向 AI 东西向流量的高性能以太网络测试编写组项目经理:项目经理:陈龙英伟达工作组长:工作组长:郭亮中国信息通信研究院贡献专家:贡献专家:宋庆春英伟达李京津英伟达毛明旺北京三快在线科技有限公司蒋星思科科技(北京)有限公司李和松中兴通讯股份有限公司余欣思科科技(北京)有限公司闫铁涛思博伦通信科技(北京)有限公司温小振中国信息通信研究院面向 AI 东西向流量的高性能以太网络测试目录目录一、背景.1二、关键技术介绍.2(一)动态路由.2(二)拥塞控制.4(三)测试床.5三、基准性能测试.7(一)RDMA 对分测试.7(二)NCCL 集合通信测试.91.全集群 NCCLAll Reduce

3、测试.92.全集群 NCCLAll toAll 测试.103.全集群 NCCL ReduceScatter 测试.104.全集群 NCCLAll Gather 测试.11四、性能隔离测试.12(一)部署场景.121.常规部署场景.122.分散部署场景.133.最优部署场景.13(二)All Reduce 性能隔离测试.14(三)All toAll 性能隔离测试.15(四)All Reduce+All toAll 性能隔离测试.16(五)LLM 应用性能隔离测试.17面向 AI 东西向流量的高性能以太网络测试五、拥塞场景测试.18(一)多打一场景下的 NCCLAll Reduce 测试.18(二

4、)多打一场景下的 NCCLAll toAll 测试.20六、总结.21附录 A 性能测试参考数据.22附录 B 测试配置.22附录 C 测试命令.26面向 AI 东西向流量的高性能以太网络测试1通用面向通用面向 AIAI 东西向流量的高性能以太网络测试东西向流量的高性能以太网络测试一、一、背景背景随着 GPT 等大语言模型的迅速崛起和不断发展,AI 训练等应用场景对计算资源的需求日益增加,这促使企业和研究机构纷纷部署大规模的 AI 集群来满足这些需求。在这些 AI 集群中,与传统网络的南北向通信模型不同,东西向的通信流量占据了网络流量的主要部分。这种变化带来了新的挑战和需求,具体包括:高吞吐量

5、高吞吐量:AI 训练任务通常涉及大量的数据传输,网络需要具备极高的吞吐量能力,以确保数据能够快速传递,避免成为计算任务的瓶颈。低延时低延时:在 AI 模型训练过程中,延时会直接影响训练速度和模型的收敛效率。因此,网络需要具备极低的延时特性,以确保数据能够及时到达目的地,支持实时的计算和反馈。低抖动低抖动:抖动是指数据包传输时间的波动,对于 AI 训练任务来说,抖动会导致计算节点之间的同步问题,从而影响整体训练效率。一个高性能的 AI 网络需要具备低抖动的特性,以保证数据传输的稳定性和一致性。高可用性高可用性:AI 训练任务通常需要长时间连续运行,任何网络故障都会导致计算任务中断,进而影响到项目

6、进度和资源利用效率。因此,网络需要具备高可用性,能够在出现故障时快速恢复,确保训练任务的连续性。面向 AI 东西向流量的高性能以太网络测试2易扩展性易扩展性:随着 AI 应用的不断发展,计算需求也在不断增加。网络需要具备良好的扩展性,能够方便地增加新的计算节点和网络设备,以满足不断增长的计算需求。本文档旨在详细介绍 AI 集群中的关键网络技术,包括动态路由和拥塞控制等,并提出一种针对网络性能的标准测试方法。通过这些技术和方法,可以了解如何构建和优化高性能的 AI 通信网络,以满足当前和未来的计算需求。二、二、关键技术介绍关键技术介绍(一)(一)动态路由动态路由随着可以扩展到数千个节点的生成式

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(开放数据中心标准推进委员会:2024年面向AI东西向流量的高性能以太网络测试(48页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠