1、技术解构,英伟达H100体系800G光模块需求几何?-AIGC系列研究之十二证券分析师:李国盛A0230521080003林起贤A0230519060002刘洋A0230513050006联系人:李国盛育电万宏源研究2023.4.4#page#SWS整体结论H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。DGXH100:DATA-NETWO
2、RKCONFIGURATIONFull-BwIntra-ServerVLinkAIL8GPUscan simultaneously saturate18HVLinks tootherGPUswithin servLimitedonly by over-subscriptionfrommultipleotherGPUsHalf-BWMVLink NetworkA8GPUscan half-subscribe18HVLinkstoGPUsinotherserversH100HIOOH1OO4GPUscan saturate18MVLinkstoGPUsinotherserversEquivalen
3、t offull-BWon AReducewith SHARPReduction in AIIZAIBWisa balancewith servercomplexityandcostsMulti-Rait InfiniBand/EthernetAIL8GPUscan independently RDMA dataoveritsowndedicated400Gb/sHCA/NI800GBpsofaggregate full-duplextonon-lVLinkletworkdevicesDGXH100-5NvLinks-1400Gb4NVLink资料来源:英伟达技术文档,申万宏源研究#page#
4、SWS投资案件结论在英伟达DGXH100SuperPOD最新的NVLinkSwitch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IBNDR网络则需要更多。原因及逻辑英伟达占训练推理环节GPU几乎90%以上份额,在DGXH100SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBandNDR网络是主流,但新的NVLinkSwitch的架构在H100硬件基础上,在某些AI场
5、景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。明越aod-:900898青dso988T器IAN器影审“莫器yPIMSuIAN弯0OTH理32台服务器则需要36x32=1152个800G光模块。若不采用NVLinkSwitch架构或者需要多集群扩容,需要使用InfiniBandNDR网络,则采用传统叶脊双层架构,需要800G+2x400G(NDR)的方案,数量关系可参考普通集群,核心是系统内带宽激增,依据不同规模可另外计算。有别于大众的认识鉴于H100GPU的供货范围限制,
6、市场对其实际的架构理解有一定信息差,我们借助英伟达技术文档试图拆解H100超算系统的通信架构;市场担心800G在AI算力环节井非刚需,但高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的送代是AI刚需。风险提示NVLinkSwitch方案渗透不达预期;技术送代产生新的通信方案3#page#主要内容1.DGXH100SuperPOD架构引入更高速NVLink方案2.用NVLink和PCIe两套体系解决架构问题3.组网架构与光模块需求预测4.结论与相关