当前位置:首页 > 报告详情

网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf

上传人: 张** 编号:164043 2024-05-31 27页 5.76MB

1、网络驱动大规模 AI 训练阿里云可预期网络 HPN 7.0 架构阿里云 资深网络架构师 席永青席永青阿里云 资深网络架构师,数据中心架构负责人团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划主导阿里云AI智算网络HPN7.0架构的设计和落地 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期

2、网络阿里云可预期网络HPN7.0HPN7.0架构架构from CPU centric to GPU centric网络性能进入可预期时代:From Best-effort to the Predictable Network第一个10年第二个10年Now:AI Infrastructure经典网络经典网络SDNSDN 软件定义网络软件定义网络AIAI 计算定义网络计算定义网络信息化,传统 IT 互联互通互联网应用 超大规模&弹性AI 大模型 大算力 可预期性能网络以协议为中心设备黑盒,人肉运维IETF 定义互联标准互联网应用重新定义网络系统互联网应用重新定义网络系统软件定义网络(SDN)设备白

3、盒解耦,运维自动化,SONiC 为代表的网络开源生态AI AI 计算重新定义数据中心架构计算重新定义数据中心架构高性能智算网络端网融合,计算/存储和网络协同生态:开放解耦与闭环并存AI AI 计算重新定义数据中心网络架构计算重新定义数据中心网络架构集群算力的关键要素集群算力的关键要素规模扩展的高性能持续可靠的稳定性100%80%60%40%200%网络性能即算力网络性能即算力计算计算通信通信通信通信同步同步1284096网络是算力网络是算力SCALESCALE OUTOUT的核心的核心102401024理论实际backwardUpdatebackwardUpdateLoad DataForwa

4、rdbackwardUpdateGPU0Load DataForwardGPU1Load DataForwardGPU2backwardUpdateLoad DataForwardGPU3average Grad 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构PSWPSWASWASWNCPUPCIeNCPUPCIeNCPUPCIeNCPUPCIe单机多网卡,机内单机多网卡,机内8 8卡高速互联卡高速互联单机带宽单机带宽3.2T3.2TGPUGP

5、U directdirect RDMARDMA,超短,超短RTTRTT单网卡,无内部互联单网卡,无内部互联单机带宽单机带宽200G200G东西向东西向+南北向流量,长短南北向流量,长短RTTRTT传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算传统通用计算集群AIAI 大模型训练集群大模型训练集群互联拓扑差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算成本、性能、稳定性、弹性扩展持续稳定的性能计算Service存储Client计算同步通信提供计算存储服务的通用计算,相对持续稳定的流量提供模型训练的AI计算,高突发、高并发的流量最优的性价比与扩展性最优的性价

6、比与扩展性提升训练效率,缩短训练时间,提升训练效率,缩短训练时间,加速业务迭代加速业务迭代传统通用计算集群AIAI 大模型训练集群大模型训练集群流量模型的网络诉求差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算100k100k级别连接级别连接60+60+级别连接数级别连接数传统通用计算集群AIAI 大模型训练集群大模型训练集群连接数差异大AAPPPPDD D DD D PPPPAA网络协议/CCAPP网络协议/CCAPP1HPN集群架构交换机/拓扑架构/路由HASH3监控运营系统监控/问题定位/资源编排端到端传输网卡/协议/CC2路车交通管理AIAI集群高性能网络系统关键

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云资深网络架构师席永青主导设计的阿里云高性能数据中心网络系统——HPN 7.0架构。该架构是针对GPU集群的高性能网络系统,标志着网络性能进入可预期时代。GPU集群对网络的关键要求包括高性能网络系统进入可预期时代,GPU centric的高性能网络系统未来展望,以及从CPU centric到GPU centric的网络性能变革。HPN 7.0架构具有超高的网络带宽,能够满足AI大模型训练对网络的高性能需求,实现了端到端的高效数据传输。此外,HPN 7.0架构还具有全局协同/拓扑感知和自研的HCCC流控技术,能够提供极致的性能和稳定性。最后,HPN 7.0架构被SIGCOMM24收录为AI网络集群架构领域的首篇顶会论文,其架构设计细节将会在论文中详述。
"AI训练如何借助阿里云HPN7.0提升性能?" "从CPU到GPU,数据中心网络如何演变?" "阿里云HPN7.0如何引领高性能网络系统新时代?"
客服
商务合作
小程序
服务号
折叠