《中国移动研究院:B400G以太网助力智算中心光互联(2023)(19页).pdf》由会员分享,可在线阅读,更多相关《中国移动研究院:B400G以太网助力智算中心光互联(2023)(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、B400G以太网助力智算中心光互联程伟强中国移动研究院-基础网络技术研究所2算力成为数字经济时代的核心竞争力AI大模型带动算力成为数字经济时代的核心竞争力。到2025年,我国算力规模将超过300 EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量2022年中国移动全球合作伙伴大会发布新一代智算中心网络技术白皮书2023年5月2022年12月2023年8月2023年中国算力(基础设施)大会发布中国移动NICC新型智算中心技术体系白皮书2023云网智联大会发布面向AI大模型的智算中心网络演进白皮书智算中心将成为支撑和引领数字经济发展的关键信息基础设施
2、,将有效促进AI产业化、产业AI化的进程国家发改委:全国一体化大数据中心协同创新体系算力枢纽实施方案2021年5月2022年7月工信部:加速推进高端芯片、新型数据中心等领域研发突破2022年1月国家发改委:我国将布局八大算力网络国家枢纽节点 加快数字经济发展2023年5月中央网信办:以算力、赋能、产业发展互动 走出数字经济特色化发展道路2023年10月工信部等六部门联合印发算力基础设施高质量发展行动计划3单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量传统DC流量模型智算中心大
3、模型(All-to-all)流量模型GPU停工等待其他GPU完成工作传统DC与智算中心流量模型区别4面向大模型训练,网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0网络设备能力决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍网络性能决定GPU集群算力加速比GPU集群性能 单GPU性能*N随着GPU单卡算
4、力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平5目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec6GSE技术体系-核心理念中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽
5、利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞创新以太网转发机制,实现三大核心机制转变源leafSpineSpineSpine目的leaf213213213213213213拥塞拥塞21321321丢包丢包7报文容器以太报文报文容器1以太报文报文1报文2报文1长度报文2长度GSE HeaderGSE Header报文容器是区别于CELL转发的一种核心转发机制,该机制下以太网报文根据最
6、终设备或者设备出端口被逻辑分配并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应的容器ID,并记录其归属的报文容器编号及在该容器占用的字节数Packet基于确定长度的容器转发提升多链路均衡性早期 链路速率低 长短包转发差异性大切CellCell1Cell2Cell3报文容器将来链路速率高 总转发带宽增大 Cell相应增大组容器Packet1Packet28DGSQ+调度在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决HOL从Send-based到Receive-