网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf

编号:164043 PDF 27页 5.76MB 下载积分:VIP专享
下载报告请您先登录!

网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf

1、网络驱动大规模 AI 训练阿里云可预期网络 HPN 7.0 架构阿里云 资深网络架构师 席永青席永青阿里云 资深网络架构师,数据中心架构负责人团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划主导阿里云AI智算网络HPN7.0架构的设计和落地 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期

2、网络阿里云可预期网络HPN7.0HPN7.0架构架构from CPU centric to GPU centric网络性能进入可预期时代:From Best-effort to the Predictable Network第一个10年第二个10年Now:AI Infrastructure经典网络经典网络SDNSDN 软件定义网络软件定义网络AIAI 计算定义网络计算定义网络信息化,传统 IT 互联互通互联网应用 超大规模&弹性AI 大模型 大算力 可预期性能网络以协议为中心设备黑盒,人肉运维IETF 定义互联标准互联网应用重新定义网络系统互联网应用重新定义网络系统软件定义网络(SDN)设备白

3、盒解耦,运维自动化,SONiC 为代表的网络开源生态AI AI 计算重新定义数据中心架构计算重新定义数据中心架构高性能智算网络端网融合,计算/存储和网络协同生态:开放解耦与闭环并存AI AI 计算重新定义数据中心网络架构计算重新定义数据中心网络架构集群算力的关键要素集群算力的关键要素规模扩展的高性能持续可靠的稳定性100%80%60%40%200%网络性能即算力网络性能即算力计算计算通信通信通信通信同步同步1284096网络是算力网络是算力SCALESCALE OUTOUT的核心的核心102401024理论实际backwardUpdatebackwardUpdateLoad DataForwa

4、rdbackwardUpdateGPU0Load DataForwardGPU1Load DataForwardGPU2backwardUpdateLoad DataForwardGPU3average Grad 高性能网络系统进入可预期时代 GPU集群对网络的关键要求 阿里云 HPN 7.0 架构 GPU centric 高性能网络系统未来展望阿里云可预期网络阿里云可预期网络HPN7.0HPN7.0架构架构PSWPSWASWASWNCPUPCIeNCPUPCIeNCPUPCIeNCPUPCIe单机多网卡,机内单机多网卡,机内8 8卡高速互联卡高速互联单机带宽单机带宽3.2T3.2TGPUGP

5、U directdirect RDMARDMA,超短,超短RTTRTT单网卡,无内部互联单网卡,无内部互联单机带宽单机带宽200G200G东西向东西向+南北向流量,长短南北向流量,长短RTTRTT传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算传统通用计算集群AIAI 大模型训练集群大模型训练集群互联拓扑差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算成本、性能、稳定性、弹性扩展持续稳定的性能计算Service存储Client计算同步通信提供计算存储服务的通用计算,相对持续稳定的流量提供模型训练的AI计算,高突发、高并发的流量最优的性价比与扩展性最优的性价

6、比与扩展性提升训练效率,缩短训练时间,提升训练效率,缩短训练时间,加速业务迭代加速业务迭代传统通用计算集群AIAI 大模型训练集群大模型训练集群流量模型的网络诉求差异大传统网络集群设计不再适用传统网络集群设计不再适用AIAI计算计算100k100k级别连接级别连接60+60+级别连接数级别连接数传统通用计算集群AIAI 大模型训练集群大模型训练集群连接数差异大AAPPPPDD D DD D PPPPAA网络协议/CCAPP网络协议/CCAPP1HPN集群架构交换机/拓扑架构/路由HASH3监控运营系统监控/问题定位/资源编排端到端传输网卡/协议/CC2路车交通管理AIAI集群高性能网络系统关键

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构-席永青.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠