《华为:迈向智能世界白皮书2024-数据通信(33页).pdf》由会员分享,可在线阅读,更多相关《华为:迈向智能世界白皮书2024-数据通信(33页).pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、2目录网络加速AI01AI改变网络02智能化生产力蓄势待发,AI基础设施持续夯实趋势1:智算集群步入超十万卡时代场景-1 超大单体集群:呼唤新一代算内网络场景-2 跨DC协同训练:长距无损联算网络,助力分布式算力聚池成海趋势2:弹性无损入算网络建设提速,使能智算云服务商业变现场景-1 存算拉远协同训练,驱动入算网络走向长距无损场景-2 海量样本“极速达”需求凸显,弹性入算网络成为建设重点AI为网络注入新的创新生命力趋势3:数字孪生和AI融合发展,网络加速迈向L4高阶自动驾驶场景-1 AI Agent与RAG/小模型协同,提升领域问答和决策表现场景-2 网络变更Agent精准仿真和验证,配置错误
2、不入网场景-3 网络故障Agent智能巡检和恢复,静默故障不沉默趋势4:网络安全进入AI对抗时代场景-1 通过轻量级图AI检测模型,应对勒索变种难防护难题场景-2 通过自学习AI模型,实现加密攻击高效检测场景-3 通过大小模型协同,实现安全事件降噪和智能辅助处置总结:智算网络和智算算力协同建设,使能企业随需用智行动建议总结:三层智能架构,加速网安一体的网络智能化发展行动建议3网络加速AI014智能化生产力蓄势待发,AI基础设施持续夯实 大模型训练持续提速,智能化生产力蓄势待发。大模型应用走深向实,已经从2C现象级应用走向2B 通用应用,正在走向场景化2B应用。场景化2B应用是企业的核心生产场景
3、,因此,大模型快速迭代能力非常关键,以Tesla为例,需要将自动驾驶训练过去一个月的工作量缩短到一周内完成,实现23周一次OTA,满足安全和竞争力需要。可以预见的是,千行万业智能化过程中不断涌现的新需求,将驱动大模型训练时长缩短至天级甚至小时级。AI基础设施投资加码,算力服务成为新热点。智能算力投资持续提速,以中国为例,预计2027年智能算力规模达到1117.4EFLOPS,2022-2027年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%。中国三大T等均已发布相关战略,将智算云服务(算力服务)作为建设重点。网络和算力协同建设,为商业闭环夯实基础。在智算云服务中,算力是关键,
4、算网是基础。例如,中国移动通过建设“4+N+31+X”多级智算中心和九州算力网络,同时通过百川并网接入第三方算力作为补充,实现“网络无所不达,算力无所不在,智能无所不及”。Tesla:自动驾驶训练持续提效中国智能算力基础设施投资趋势中国移动智算战略5趋势一:智算集群步入超十万卡时代 集群规模从万卡快速跃升到十万卡级:受大模型的“涌现”效应影响,大模型参数持续增长,其增长速度已经超越摩尔定律(单卡算力提升速度),导致集群规模在持续增长,目前已经进入十万卡时代。Meta在2024年初公布了2个24576块Nvidia H100集群,用于下一代生成式AI模型的训练;2024年7月,埃隆马斯克(Elo
5、n Musk)宣布,xAI团队已开始在孟菲斯超级集群上进行新版聊天机器人GROK 3训练,该集群配备了10万张H100。字节跳动搭建12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型。科大讯飞2023年建成首个支持大模型训练的超万卡集群算力平台“飞星一号”。2024年2月4日“深圳市智慧城市算力统筹调度平台”打造10万卡“最强算力”集群(河套-西丽湖-光明科学城)。润泽(廊坊)国际信息港B区新型智算中心13万卡已启动建设,预计25年底交付。61.1-超大单体集群:高质量算内网络成为释放算力效率的关键要素网络是决定集群大模型训练效率的关键:AI训练的通信模式,
6、与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%,模型参数越多,集群规模越大,数据同步耗时越长,网络的通信效率对模型训练效率影响越重,尤其十万卡级大模型需要更高质量的网络。高质量的网络,需要无阻塞、低时延,满足十万卡级高线性度的算力利用率,大规模AI场景下海量的参数分布于多个服务器的多个GPU之上,需要用到多大十万个GPU来训练数十TB级甚至更大的数据,大量GPU之间的通信容易出现由于网络负载分担不均或者时延过大导致算力闲置,算法线性度下降甚至出现“饱和”现象。高质量的网络,需要长稳、健壮,支撑十万卡级大集群训练的高可靠,大模型训练是一