阿里云:2025年UPN512 技术架构白皮书 v1.0(26页).pdf

编号:924960 PDF  DOCX 26页 6.76MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:2025年UPN512 技术架构白皮书 v1.0(26页).pdf

1、UPN512 技术架构白皮书 v1.0阿里云智能集团 网络研发1/26U PN512 技术架构白皮书 v 1.0/阿里云智能集团-网络研发目录1.术语?.AI基础设施网络的发展趋势?.xPU Scale up 网络的演进和挑战?.阿里云 UPN?1?架构概览?.UPN?1?系统设计和关键组件5.1 系统架构5.1.1 AI Rack-铜互连紧耦合系统5.1.2 UPN512-单层光互连解耦系统5.1.2.1 全光互连5.1.2.2 单层千卡域5.1.2.3 解耦设计5.2 光互连概览5.2.1 可插拔光互连案5.2.2 密带宽光互连案5.2.3 LPO/NPO 场景和案的选择5.2.4 LPO

2、/NPO 成本5.2.5 互连稳定性5.3 传输语义5.4 在计算2/263 34 463638 88 88 88 89 91212151512121414171714141818191919192222U PN512 技术架构白皮书 v 1.0/阿里云智能集团-网络研发1.术语2.AI基础设施网络的发展趋势近年来,随着人工智能(AI)技术蓬勃发展,大模型训练、推理任务对算力、内存的需求呈现指数级增长。为了提升算力,获取更短的训练时间和更高的推理效率,智算集群通过高性能网络进行集群算力的扩展,目前已经从万卡向十万卡、数十万卡级别迈进。为了实现高效的训练推理,业界通常会采用多种并行策略驱动数千甚

3、至数万张xPU进行交换数据,协作完成作业,术语解释UPNUltra Performance NetworkHPNHigh Performance NetworkMoEMixture of ExpertsEP Expert ParallelismFROFully Retimed OpticsLPOLinear-drive Pluggable OpticsNPONear-packaged OpticsCPOCo-packaged OpticsOEOptical EngineVCSELVertical-Cavity Surface-Emitting LaserEMLElectro-Absorptio

4、n Modulated LaserELSFPExternal Laser Small Form-Factor PluggableMTBFMean Time Between FailuresMTTRMean Time To Repair3/26U PN512 技术架构白皮书 v 1.0 /阿里云智能集团-网络研发这依赖于高性能的网络转发能力。纵观AI基础设施的技术发展,如下几个方面对网络提出新的要求。模型结构从Dense演进到MoE。大模型经过其初期发展后,在提升模型容量效率和降低计算成本的驱动下,基于MoE(Mixture of Experts)的模型结构逐渐代替Dense模型结构,成为一种趋

5、势。MoE将模型划分为多个独立专家网络,并利用门控机制动态分配输入数据给特定专家进行处理。MOE 通过多个专家并行处理不同的数据子集,然后根据输入数据的特征动态选择最合适的专家输出,在提高模型性能的同时有效地控制了算力成本。从网络视角,MoE模型结构通常采用EP并行(Expert Parallelism),EP并行要求网络超大带宽和超低时延,同时由于更多EP并行域(大EP)会带来计算效率的提升,更大的EP网络通信域成为网络演进的趋势。从预训练到训推一体。智算集群的算力负载,已经从预训练逐步向训推一体演进,即在同一个网络集群内有离线的模型训练、RL,也会有在线的推理服务,推理场景中也演化出分布式

6、效率优化技术包括PD分离、AF分离、大EP推理等。从网络视角,在线和离线流量共存,不同并行模式,以及不同计算密度负载的分离,都使得网络通信模型更加复杂,对训推一体的网络架构设计提出更高的要求。通过 xPU Scale up 扩展提升集群化算力。为了应对模型对算力增长的诉求,算力互联技术同样发展迅速,通过大带宽低时延的网络互联实现集群化的超节点算力提升成为主要趋势,比如NVIDIA GPU Scale up 域已经由原来的8卡风冷系统演进到72卡液冷系统,华为也已经发布了通过UB网络组成的384张NPU超节点。通过超大带宽超低时延的 Scale up 网络扩展xPU的集群超节点算力是AI底层算力

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:2025年UPN512 技术架构白皮书 v1.0(26页).pdf)为本站 (known) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠