1、目录0101背景编制说明0302网络架构2.1 拓扑2.1.1 Clos2.1.2 MultiRail2.1.3 直连拓扑2.2 软件030405060830303404技术测评4.1 HPC场景4.2 AI场景1003关键技术3.1 流控技术3.1.1 流量映射3.1.2 Pause帧与PFC3.1.3 PFC死锁检测3.1.4 PFC死锁预防3.2 拥塞控制技术3.2.1 ECN3.2.2 DCQCN3.2.3 AI ECN3.2.4 ECN overlay3.3 流量调度技术3.3.1 负载分担3.3.2 网络级负载均衡技术3.4 应用加速101011121416161820212424
2、2628350506最佳实践5.1 阿联酋Ankabut5.2 武汉超算5.3 北京大学35363739展望本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家、参编单位和参编人员:顾问专家(排名不分先后):Chair&Counselor of IEEE Kazakhstan Subsection Dr.Ikechi Augustine Ukaegbu华为数据通信产品线数据中心网络领域总裁 王武伟 参编单位(排名不分先后):华为技术有限公司、IEEE Kazakhstan Subsection参编人员(排名不分先后):李建高、赵少奇、李军、温华锋、李经、林艺宏、胡秀丽、程璞、
3、赵刚、郝杰、黄伟、许明明、李莹莹、张爱雪、许建、魏智杰、沈瑞编制说明白皮书中首先介绍了当前高性能计算网络拓扑架构包括CLOS、MultiRail、直连拓扑。其中,CLOS是一个多级架构,在每一级,每个交换单元都和下一级的所有交换单元相连接,可以做到严格的无阻塞、可重构、可扩展;MultiRail通过框式设备的信元交换,实现平面内的绝对负载均衡;直连拓扑可实现超大规模组网,具备低成本、端到端通信跳数少的特点。其次介绍了软件架构从网络自身的优化、网络与应用系统的融合优化两个方面来提升HPC&AI应用性能。网络自身优化的目标是使整网吞吐最高、时延最低。流控通过识别环形缓存依赖并破除其产生的必要条件,
4、从而解决PFC死锁的问题,提高网络可靠性;拥塞控制通过AI算法动态调节ECN门限,以获得最大带宽与最小时延;流量调度通过NSLB技术解决网络负载不均的问题,实现90%高吞吐,以达成AI训练效率提升20%的结果。网络与应用系统的融合优化,HPC网络通过在网计算实现运算优化,即通过MPI通信的在网聚合运算特性,网络设备参与计算过程,减少任务完成时间。摘要目录0101背景编制说明0302网络架构2.1 拓扑2.1.1 Clos2.1.2 MultiRail2.1.3 直连拓扑2.2 软件030405060830303404技术测评4.1 HPC场景4.2 AI场景1003关键技术3.1 流控技术3.
5、1.1 流量映射3.1.2 Pause帧与PFC3.1.3 PFC死锁检测3.1.4 PFC死锁预防3.2 拥塞控制技术3.2.1 ECN3.2.2 DCQCN3.2.3 AI ECN3.2.4 ECN overlay3.3 流量调度技术3.3.1 负载分担3.3.2 网络级负载均衡技术3.4 应用加速1010111214161618202124242628350506最佳实践5.1 阿联酋Ankabut5.2 武汉超算5.3 北京大学35363739展望本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家、参编单位和参编人员:顾问专家(排名不分先后):Chair&Couns
6、elor of IEEE Kazakhstan Subsection Dr.Ikechi Augustine Ukaegbu华为数据通信产品线数据中心网络领域总裁 王武伟 参编单位(排名不分先后):华为技术有限公司、IEEE Kazakhstan Subsection参编人员(排名不分先后):李建高、赵少奇、李军、温华锋、李经、林艺宏、胡秀丽、程璞、赵刚、郝杰、黄伟、许明明、李莹莹、张爱雪、许建、魏智杰、沈瑞编制说明白皮书中首先介绍了当前高性能计算网络拓扑架构包括CLOS、MultiRail、直连拓扑。其中,CLOS是一个多级架构,在每一级,每个交换单元都和下一级的所有交换单元相连接,可以做到