《网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf》由会员分享,可在线阅读,更多相关《网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、网络驱动大规模 AI 训练阿里云可预期网络 HPN 7.0 架构阿里云 资深网络架构师 席永青席永青阿里云 资深网络架构师,数据中心架构负责人团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划主导阿里云AI智算网络HPN7.0架构的设计和落地 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期
2、网络阿里云可预期网络HPN7.0HPN7.0架构架构from CPU centric to GPU centric网络性能进入可预期时代:From Best-effort to the Predictable Network第一个10年第二个10年Now:AI Infrastructure经典网络经典网络SDNSDN 软件定义网络软件定义网络AIAI 计算定义网络计算定义网络信息化,传统 IT 互联互通互联网应用 超大规模&弹性AI 大模型 大算力 可预期性能网络以协议为中心设备黑盒,人肉运维IETF 定义互联标准互联网应用重新定义网络系统互联网应用重新定义网络系统软件定义网络(SDN)设备白
3、盒解耦,运维自动化,SONiC 为代表的网络开源生态AI AI 计算重新定义数据中心架构计算重新定义数据中心架构高性能智算网络端网融合,计算/存储和网络协同生态:开放解耦与闭环并存AI AI 计算重新定义数据中心网络架构计算重新定义数据中心网络架构集群算力的关键要素集群算力的关键要素规模扩展的高性能持续可靠的稳定性100%80%60%40%200%网络性能即算力网络性能即算力计算计算通信通信通信通信同步同步1284096网络是算力网络是算力SCALESCALE OUTOUT的核心的核心102401024理论实际backwardUpdatebackwardUpdateLoad DataForwa
4、rdbackwardUpdateGPU0Load DataForwardGPU1Load DataForwardGPU2backwardUpdateLoad DataForwardGPU3average Grad 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构PSWPSWASWASWNCPUPCIeNCPUPCIeNCPUPCIeNCPUPCIe单机多网卡,机内单机多网卡,机内8 8卡高速互联卡高速互联单机带宽单机带宽3.2T3.2TGPUGP
5、U directdirect RDMARDMA,超短,超短RTTRTT单网卡,无内部互联单网卡,无内部互联单机带宽单机带宽200G200G东西向东西向+南北向流量,长短南北向流量,长短RTTRTT传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算传统通用计算集群AIAI 大模型训练集群大模型训练集群互联拓扑差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算成本、性能、稳定性、弹性扩展持续稳定的性能计算Service存储Client计算同步通信提供计算存储服务的通用计算,相对持续稳定的流量提供模型训练的AI计算,高突发、高并发的流量最优的性价比与扩展性最优的性价
6、比与扩展性提升训练效率,缩短训练时间,提升训练效率,缩短训练时间,加速业务迭代加速业务迭代传统通用计算集群AIAI 大模型训练集群大模型训练集群流量模型的网络诉求差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算100k100k级别连接级别连接60+60+级别连接数级别连接数传统通用计算集群AIAI 大模型训练集群大模型训练集群连接数差异大AAPPPPDD D DD D PPPPAA网络协议/CCAPP网络协议/CCAPP1HPN集群架构交换机/拓扑架构/路由HASH3监控运营系统监控/问题定位/资源编排端到端传输网卡/协议/CC2路车交通管理AIAI集群高性能网络系统关键