1、以太网端侧无拥塞乱序传输网络技术报告编号 ODCC-2024-0B001以太网端侧无拥塞乱序以太网端侧无拥塞乱序传输网络技术报告传输网络技术报告技术白皮书技术白皮书2024.09 发布开放数据中心标准推进委员会以太网端侧无拥塞乱序传输网络技术报告I版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持
2、。以太网端侧无拥塞乱序传输网络技术报告II编写组项目经理:项目经理:孙伟上海云脉芯联科技有限公司工作组长:工作组长:王瑞雪中国移动通信研究院贡献专家:贡献专家:秦风伟中国移动通信研究院李婕妤中国移动通信研究院王雯萱中国移动通信研究院刘红巧中国移动通信研究院黄宏毅华为技术有限公司李和松中兴通讯股份有限公司王少鹏中国信息通信研究院孙聪中国信息通信研究院邹胜亮新华三技术有限公司曲延锋锐捷网络股份有限公司谢迎运烽火通信科技有限公司王力苏州盛科通信股份有限公司陈刚云合智网(上海)技术有限公司陈文斌深圳云豹智能有限公司张兴中科驭数(北京)科技有限公司马国强星云智联科技有限公司路明远浪潮电子信息产业股份有限
3、公司周春法浪潮电子信息产业股份有限公司以太网端侧无拥塞乱序传输网络技术报告III目录版权声明.I编写组.II一、智能计算时代网络传输技术的发展趋势.1二、智算中心网络技术的需求和挑战.1三、业内主流以太网无拥塞乱序传输网络技术.5(一)传统网络 vs.多路径传输网络.5(二)网络设备保序乱序传输网络技术.61 DDC(Distributed Disaggregated Chassis).62 全调度架构(Fully Scheduled Fabric).73 全调度以太网(GSE,Global Scheduling Ethernet)9(三)智能网卡/DPU 保序乱序传输网络技术.101 自适应
4、路由(Adaptive Routing).102 认知路由(Cognitive Routing).11四、以太网端侧乱序传输网络技术发展.14(一)影响以太网端侧网络性能的主要因素.151 网络时延.152 网络丢包.163 网络包乱序深度.17(二)以太网端侧乱序传输网络主要技术发展趋势.18以太网端侧无拥塞乱序传输网络技术报告1一、一、智能计算时代网络传输技术的发展趋势智能计算时代网络传输技术的发展趋势随着 AI 大模型技术的高速发展,以 ChatGPT-3 为代表的大模型技术迅速触发了 AI 大模型算力基础设施建设的军备竞赛,数据中心建设正式从“云化时代”转向“算力时代”,从以通用计算
5、CPU 为主的算力时代向以智能计算 GPU 为主的算力时代过渡。云计算时代数据中心网络以虚拟化技术,多租户网络和云平台化管理为主要发展重心,数据中心网络建设多以具有收敛比的 Spine-Leaf 架构为主,主要应用25G 和 100G 网络接入带宽,以内核协议栈通信为绝大多数应用的网络通信基础,对于网络丢包容忍度较高,网络带宽利用率多存在冗余建设;智算中心时代数据中心网络多以 RDMA 技术为基础,以 200G和 400G 高速网络接入为主,所使用的通信协议 RDMA 采用硬件实现,网络吞吐要求满吞吐线速传输能力,对于丢包“零”容忍,网络建设无收敛比,多是上下行带宽等比例建设,对于大数据量通信
6、时延要求高,网络具备高可靠性。另外,智算中心建设对比传统数据中心建设,网络设备 TCO 占比会随着数据中心规模增加而提高,智算中心网络建设成为影响算力基础设施整体计算能力的关键因素。二、二、智算中心网络技术的需求和挑战智算中心网络技术的需求和挑战智算中心主要承载 AI 大模型训练业务,其业务特点要求智算中心网络具备高带宽,满吞吐,零丢包,低时延和高突发等特征。在大模型训练过程中,网络流量具有非常强的周期性,每轮迭代的网络流以太网端侧无拥塞乱序传输网络技术报告2量模式保持一致,每轮迭代过程中,节点间流量保持同步,且多是大象流通信方式。如下图所示,在 AI 大模型训练业务中,GPU 加速计算任务,