《2024龙蜥大会中兴通讯分论坛:大模型时代的智算基础设施演进趋势探讨-杨维.pdf》由会员分享,可在线阅读,更多相关《2024龙蜥大会中兴通讯分论坛:大模型时代的智算基础设施演进趋势探讨-杨维.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代的智算基础设施演进趋势探讨中兴通讯-算力及核心网产品线杨维业界热点观察01训练端超万卡集群的挑战及演进02推理端多场景挑战及技术演进03中兴智算方案与实践0401 业界热点观察训练算力规模成为核心竞争力,超万卡智算集群建设提速未来路线图 目标:为AI训练提供强大支持 规模:已建成2个24576 H100,未来还将建成一个“大规模计算基础设施”拥有35万张H100星际之门计划 目标:实现AGI(通用人工智能)提供强大的动力 规模:数百万个GPU(五个阶段建成)超级计算工厂xAI计划 目标:打造世界最大AI集群,训练GrokAI 规模:30万颗B200 GPU(预计25年底)OpenAI
2、国际巨头纷纷发力,超大规模算力成为未来发展主旋律加速建设超万卡,超万卡正在成为标配 国际:超万卡集群正在成为标配,特斯拉成为10万卡领头羊 国内:万卡成为AI竞争最低标配,运营商、互联网等企业加速建设万卡集群单集群GPUsOpenAI10万+特斯拉26000+Google25000+24570+Meta15000+电信12000+字节10000+移动从+AI到AI+,行业积极探索AI应用国内大模型正在从训练转向推理,C端需求先行,B端逐步引入,推理算力将成为关注热点2023年底B端探索:私域部署,场景孵化摩根对北美500强CIO调研C端先行:云端推理,初步形成规模商用国际20美元/月AI+助手
3、办公+AI20美元/月爆火后无法使用;流量远超资源规划,连续扩容5次KIMIChat国内概念验证2024年H2原型验证2025年进入实际生产超200 AI+行业大模型覆盖20个行业门类生成式人工智能最具价值应用场景知识管理对话式应用设计代码生成销售和营销月活1亿月均15亿访问全球超7500万台使用;已推送更新启用预览版来源:IDC2023-2024年中国人工智能计算力发展评估报告AI+助手妙鸭相机高峰期5000人排队等10小时出片,阿里云紧急扩容数倍AI+美图训练创造能力推理实现价值迭代提升能力盈利驱动投入大参数、复杂专业推理、长上下文、多模态任务决策RoboAgent多模态视频剪辑专业推理研
4、发/教学02 训练端超万卡集群的挑战及演进构建超万卡集群面临的挑战:高效、高稳、开放.千卡混池调度1 2 381 2 381 2 38万卡十万卡算力:千卡-万卡-十万卡大集群:GPT-4,2.5万个A100,100天多算力:NV A100/H100,BR,HWJ,AMD读写多:175B模型,58.1TB CKPT故障频:Meta 175B/千卡两周40次,405B/万卡54天419次功耗高:GPU能耗700w-1000w,达到风冷散热极限模型:参数每年10倍增长20222018202620202024GPT-3.5 1750亿单模态GPT-41.8万亿多模态模型参数2028GPT-5预计十万亿
5、多模态2.5万个A100GPT-X预计百万亿多模态GPT-217亿单模态大模型:参数规模持续提升,GPT-3 175B,GPT4 1.8T,GPT 5 预计10T+大数据:超长上下文,图片和视频大模型训练需求高涨,智算中心走向超万卡单卡算力受限时,采用交换架构互联和超节点(8)可有效构建超万卡集群问题模型参数量每代(12年)10倍增加,总算力需求10+倍提升;GPU芯片每代(12年)仅24倍提升,导致单个训练集群GPU卡数剧增超万亿模型、MOE架构模型的引入,带来大规模GPU卡间高频高带宽通信,对智算中心互联提出更高要求开放的OLink标准+交换芯片,提供端到端GPU高速互联方案交换芯片通过大
6、交换容量+大端口密度可突破机内8卡限制,支持16128卡交换芯片内置计算单元支持在网计算功能OLink总线兼容现有ETH/RDMA等标准协议R6900超节点服务器.X厂家GPU卡X厂家GPU卡.OLink总线OLink交换芯片Y厂家GPU卡Y厂家GPU卡.OLink总线 单机GPU卡数受限:点到点FullMesh,仅支持单机=8卡 GPU间互联带宽受限:=392GB/s 无在网计算能力机内参数面互联协议标准化单机算力密度提升 单卡算力受限:国产GPU单卡算力受限,短期无法提升 总算力:(TP *单卡算力)*(DP*PP),DP*PP受限bach size大小单机算力密度提升和机内参数面互联标准