《AI大模型的技术挑战和解决方案.pdf》由会员分享,可在线阅读,更多相关《AI大模型的技术挑战和解决方案.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、LUXSHARE TECH Proprietary and Confidential 立讯技术机密信息立讯技术机密信息 All Rights Reserved 版权所有版权所有 复制必究复制必究AI大模型的技术挑战和解决方案Dec.20232LUXSHARE TECHProprietary and ConfidentialAI-创新涌现,拥抱智能时代人工智能的“涌现”时刻即将出现,人类社会也将迎来一个波澜壮阔的智能时代。迈入智能时代,最大的需求是算力最关键的基础设施是数据中心。根据华为智能世界 2030报告预测,2030 年,人类将迎来 YB 数据时代,对比 2020 年,通用算力将增长10
2、倍人工智能算力 增长500 倍算力需求十年百倍的增长将成为常态在 AI 大模型训练过程中,当模型大到一定规模之后,性能会发生突变,开始呈现指数级快速增长,科学界称这个现象为“涌现”。3LUXSHARE TECHProprietary and Confidential一边是算力需求以远超摩尔定律的陡峭增长,而另一边却是多重的资源约束。单芯片摩尔定律的失效、以及全球可持续发展目标下对于碳减排的要求,将迫使未来的数据中心必须在更优的计算架构、以及更低的能耗下产生更大的算力。数据中心的发展趋势及挑战数据中心的发展趋势及挑战 绿色化-极致PUE-液冷技术 智能化-AI 大模型计算与推理-高带宽&低时延
3、大型化+集群化-统一的互连协议-整机柜交付+池化4LUXSHARE TECHProprietary and ConfidentialAI带来数据中心架构的革新:Nvlink,CXL,UEC超级以太网,各类新型协议带来互连架构的革新Nvidia AI(GH200)体积小、效能高、高频宽、低延时DAC/AEC/AOC/ModualCable Backplane SolutionTPU AI独有架构效能高、高频宽、低延时DAC/AEC/AOCIntel CXL 池化方案:池化架构,弹性高、灵活扩展、适用通用架构PCIE CXL/Ethernet DAC/AEC/AOC超级以太网加速互连技术以更大规模
4、,更高带宽,更低延迟的网络架构发展超以太网联盟(Ultra Ethernet Consortium,UEC)正式成立,人工智能和高性能计算给网络带来了新的挑战,需要更大规模、更高带宽密度、多路径、低延迟的网络技术,UEC将提供基于以太网的开放、可互操作、高性能的全通信堆栈架构,以满足大规模人工智能和高性能计算不断增长的网络需求。5LUXSHARE TECHProprietary and Confidential34512671柜间互连解决方案2柜内系统解决方案3服务器整机解决方案45交换机器整机解决方案-Level1 Nvlink6交换机器整机解决方案-Infiniband/Ethernet7
5、交换机器整机解决方案-管理交换机器整机解决方案-Level2 NvlinkServer+Switch:256台GPU服务器-256张NIC卡(OSFP112),256张DPU卡(2xQSFP112)Nvlink L1层交换机1U 96台(叶交换机)(OSFP112)Nvlink L2层交换机1U 36台(脊交换机)(OSFP112)I/B交换机1U 24台(核心交换机)(OSFP112)Ethernet交换机1U 22台(叶&脊交换机)(QSFP56)Management Ethernet交换机1U 20台(RJ45+QSFP28)高速互连(柜内互连采用铜缆,柜外互连采用光模块)1 EFLOP
6、SEFLOPSAI数据大模型算力中心网络架构:NVIDIA DGX GH200 全互连全景图6LUXSHARE TECHProprietary and ConfidentialAI数据大模型算力中心网络架构:NV GPU发展路标-单通道速率向224G演进7LUXSHARE TECHProprietary and ConfidentialAI数据大模型算力中心网络架构:NV 架构发展趋势CHIP1OSFP224G Conn&CageNPC224G Conn(32p or 64p)CHIP2CHIP2BPPCB TraceCableCable BP conn(32p or 64p)GPU224G