英伟达:2023年AI时代的网络网络定义数据中心白皮书(20页).pdf

编号:601211 PDF 20页 2.05MB 下载积分:VIP专享
下载报告请您先登录!

英伟达:2023年AI时代的网络网络定义数据中心白皮书(20页).pdf

1、AI 时代的网络:网络定义数据中心|2023 年 9 月AI 时代的网络:时代的网络:网络定义数据中心 白皮书AI 时代的网络:网络定义数据中心|ii 目录简介.4简介.4AI 是一个分布式计算问题是一个分布式计算问题.5.5为 AI 构建网络.5NVIDIA Spectrum-X:专为生成式:专为生成式 AI 时代而设计.6时代而设计.6无损网络与 RDMA.6动态路由、多路径和基于包的负载分担.7拥塞控制.8性能隔离与安全.9NVIDIA Quantum InfiniBand:针对:针对 AI 进行了本质优化.11进行了本质优化.11集合计算能力.11网络计算.12NVIDIA Quant

2、um InfiniBand 动态路由.13NVIDIA Quantum InfiniBand 拥塞控制.14避免常见的误解.15避免常见的误解.15新兴 AI 的持续发展.15直通式交换和端到端链路速度.15交换基数和 AI 可扩展性.16交换缓冲区架构.17对网络链路故障的恢复.18AI 云管理.18结论.19结论.19AI 时代的网络:网络定义数据中心|iii 图列表图 1GPU 到 GPU 通信的RDMA实现.7图 2数据包粒度的 NVIDIA Spectrum-X 以太网动态路由实现.8图 3使用交换机和 NVIDIA BlueField DPU 协同工作的 NVIDIA Spectr

3、um-X 以太网拥塞控制示例.9图 4与分割缓冲区实现的对比,展示通用共享数据包缓冲区架构的重要性.10图 5从单个 GPU,到使用 NCCL 在多 GPU 节点,以及多个多 GPU 节点上进行扩展.12 图 6左侧是可扩展分层次聚合和归约协议架构(SHARP),右侧是与 NCCL 一起使用时的性能.13图 7图 8NVIDIA Quantum InfiniBand 拥塞控制机制.14 经过优化的 400Gb/s 端到端 AI 云以太网拓扑.16图 9与缓冲区大小和缓冲区占用率相比的实际和预测时延.17 AI 时代的网络:网络定义数据中心 简介 数十年来,传统的云数据中心一直专注于为广泛的用户

4、群提供各种资源。基础设施组件虚拟化方面的进步使系统和应用程序能够根据需要快速部署,以满足需求。这些数据中心非常适合支持各种业务的应用程序,且通过企业级以太网连接就足以支持小规模工作负载。虽然以太网包含了广泛和全面的功能集,但它的性能无法保证大规模应用。它也不适合高性能计算。如今,我们面临着新型数据中心的崛起:AI 云和 AI 工厂,它们需要加速计算和高性能网络来支持人工智能(AI)。因此,当今的超大规模数据中心的部署格局正在发生巨大变化。随着 GPU 加速计算架构的广泛应用,AI 研究人员和从业者可以利用分布式加速计算的强大功能,若没有高性能网络的支持,这样大规模的高性能计算将是不可想象的。因

5、为数据中心进行分布式 AI模型训练和生成式 AI,这需要强大的网络连接数量众多的 GPU 节点进行计算,所以,数据中心的网络正在引领着 AI 时代的进步。|4 AI 时代的网络:网络定义数据中心|5 AI 是一个分布式计算问题 传统数据中心将所有计算资源(包括服务器、存储和网络)集中在一起集中使用提供服务。对于分布式计算则是利用多个通过网络互连服务器或节点协同工作以执行任务。在此模型中,工作负载分布在各种机器上,并通过高速、低时延的网络连接在一起。部署生成式 AI 应用程序或训练基础 AI 模型需要大量的计算资源,对于 ChatGPT、BERT 或 DALL-E 等复杂大模型尤其如此。随着数据

6、量和模型大小的增加,我们采用分布式计算来应对这一挑战。它通过在多个互连的计算节点之间分配工作负载来加速训练过程。单个分布式任务的总体运行时间受最慢参与节点的运行时间所制约。网络在确保消息及时到达所有参与节点这方面就发挥着重要作用。在这种状态下,尾部延迟(即最后参与消息的到达时间)变得非常重要,尤其是在大规模数据中心部署和存在竞争工作负载的情况下,训练大型 AI 模型需要越来越多的计算节点处理大量数据的情况下,需要的网络规模越大,对尾部时延的要求也就越高。为 AI 构建网络 在评估数据中心采用 AI 的网络架构时,应将其视为统一的端到端解决方案,并将服务分布式计算作为首要考虑因素,兼顾实现数据中

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(英伟达:2023年AI时代的网络网络定义数据中心白皮书(20页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠