1、 请阅读最后评级说明和重要声明 丨证券研究报告丨 行业研究丨专题报告丨软件与服务 Table_Title 国产算力三问三答系列之一:万卡集群对 AI 意味着什么?报告要点 Table_Summary万卡集群是指由一万张及以上的计算加速卡(如 GPU、TPU 或其他专用 AI 加速芯片)组成的集群式的高性能计算系统,主要用来训练当前参数和训练数据量越来越庞大的大模型。在 AI 算力领域,全球大模型军备竞赛背景下,全球万卡集群趋势凸显,Scaling Law 不断得到验证,更大和先进的集群能及时对市场趋势作出反应,快速进行迭代训练,实现大模型技术上的追赶和领先行间距。国产万卡集群或逐渐成熟,建议重
2、点关注集群技术变革新方向。分析师及联系人 Table_Author 宗建树 余庚宗 SAC:S0490520030004 SAC:S0490516030002 SFC:BUX668%1请阅读最后评级说明和重要声明丨证券研究报告丨软件与服务 Table_Title2国产算力三问三答系列之一:万卡集群对 AI 意味着什么?行业研究丨专题报告Table_Rank 投资评级 看好丨维持Table_Summary2 总览全球,万卡集群趋势越发凸显什么是万卡集群?参考产业界认知,一般而言,万卡集群是指由一万张及以上的计算加速卡(如GPU、TPU 或其他专用 AI 加速芯片)组成的集群式的高性能计算系统,主
3、要用来训练当前参数和训练数据量越来越庞大的大模型。这种集群充分整合高性能 GPU 计算、高性能存储以及网络、智算平台等关键技术,将各类底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代升级。在 AI 算力领域,全球万卡集群趋势凸显。1)国际市场,OpenAI、Google、Meta 等科技巨头,都争陒部署万卡集群,用来支撑其在基座大模型及生态服务等方面的技术创新。2)在国内,运营商、头部互联网大厂、大型 AI 研发企业等均在万卡集群的建设和使用过程中不断推动技术革新。军备竞赛,万卡集群是支撑 AIGC 基石
4、自 ChatGPT 引爆大模型 AI 后,大模型步入了快速发展期,“千模大战”,行业百花齐放,过程中 Scaling Law 不断得到验证,大模型能力持续提升。大模型所使用的数据量和参数规模呈现“指数级”增长,同时随着 Mixture of Experts(MoE)等先进模型结构的出现,模型参数迈入万亿规模。模型大小和训练数据大小成为决定模型能力的关键因素。在同等模型参数和数据集下,集群训练时间有望显著缩短。更大和先进的集群能及时对市场趋势作出反应,快速进行迭代训练。整体上超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对,实现大模型技术上的追赶和领先。国产
5、万卡集群突破支撑我国 AIGC 追赶持续追赶,国产万卡集群或逐渐成熟。持续追赶,国产万卡集群或逐渐成熟。在国内,通信运营商、头部互联网、大型 AI 研发企业等均在万卡集群的建设和使用过程中不断推动技术革新,支撑国内 AI 大模型训练底座。集群互联和液冷是万卡集群陒对传统小规模算力重要技术差异。集群互联和液冷是万卡集群陒对传统小规模算力重要技术差异。万卡集群需进一步解决超大规模算力组网、集群效能提升、多元异构算力生态等问题。与此同时从技术维度,我们认为也会有三个新的技术趋势是万卡集群实现过程中的提升:1)万卡集群的计算效能提升需要从单芯片能力提升、超越单机 8 卡的超节点技术、服务器内卡间通信效
6、率提升等多方面系统推进;2)大规模、大带宽、低时延、高可靠的通信网络是万卡集群智算中心能正常高效工作关键;3)万卡集群智算中心具备高密度高能耗的典型特点,通过液冷等新技术节能也是重要方向。在国产算力整体高景气高确定下产业背景下,我们认为当前时点迎来国产万卡集团突破期,看好全产业链机遇的同时,建议重点关注产业趋势变化带来新的结构性投资机会,重点关注集群化和液冷等新兴变化方向。风险提示1、实际需求落地不及预期;2、行业竞争格局变化的风险。市场表现对比图市场表现对比图(近近 12 个月个月)资料来源:Wind 相关研究相关研究 苹果 WWDC2024 召开,AI 升级是重心 2024-06-12 关