《计算机行业华为系列深度之十八暨GenAI系列深度之四十九:算力新变局训练范式、架构创新、工程优化-250207(24页).pdf》由会员分享,可在线阅读,更多相关《计算机行业华为系列深度之十八暨GenAI系列深度之四十九:算力新变局训练范式、架构创新、工程优化-250207(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、行业及产业 行业研究/行业深度 证券研究报告 计算机 2025 年 02 月 07 日 算力新变局:训练范式、架构创新、工程优化 看好华为系列深度之十八暨 GenAI 系列深度之四十九 相关研究 Deepseek 全解,从算法到算力计算机行业周报 20250127-20250204 2025/02/04 AI 算力软件生态:难以突破吗?华为系列深度之十五 2024/09/19 证券分析师 黄忠煌 A0230519110001 洪依真 A0230519060003 李国盛 A0230521080003 杨海晏 A0230518070003 林起贤 A0230519060002 刘洋 A02305
2、13050006 研究支持 曹峥 A0230123040004 联系人 曹峥(8621)23297818 本期投资提示:AI 大模型训练范式正在转向多阶段,强化学习算力投入仍需提升。OpenAI o1 后,黄仁勋提出三大 Scaling Law:预训练、后训练和推理阶段提升算力投入,都能够提升模型性能。Deepseek V3 和 R1 模型爆火,后训练阶段的强化学习(ReinforcementLearning)以及推理阶段的长思考是核心特点,也再次佐证了后训练阶段、推理阶段的Scaling Law。我们认为这两大 Scaling Law 仍处于起步阶段,模型厂商将继续加码强化学习,算力投入仍有
3、增量空间。模型架构创新,训推成本降低正在进行时。国内外厂商,均有多种创新。1)MoE 混合专家模型:降低训练过程激活参数量以减少计算量,已几乎成为标配;2)注意力机制的改进:线性注意力机制、稀疏注意力机制,将计算复杂度从 o(N2)降低至 o(N),MQA、GQA、MLA 等降低了 KV-Cache,优化推理成本,后续注意力机制仍将改进。Infra 工程优化,模型性价比持续提升。模型架构的创新,给硬件通信和显存带来了压力,infra 优化至关重要,Deepseek 是工程优化的代表。根据清华大学博士的测算,DeepSeek V3 模型在 H800 算力集群上的算力使用效率 MFU 约为 36.
4、1%39%,相较半年前的 DeepSeek V2 提升了 61%,为 DeepSeek 节省了近 1200 万元的成本。根据 Semianalysis,Deepseek V3 的价格(MMLU cost/1M Tokens)较 GPT-4 下降了 90 倍以上,AI 模型性价比持续提升。开源+蒸馏趋势下 AI 模型智能平权开启,杰文斯悖论可能生效。“算法优化成本下降渗透率提升强化训推投入”闭环逻辑持续。算法和硬件架构优化带来的成本下降,会令模型厂商使用同等投入买到更多训练 Flops,加速模型能力的更新以及应用加速渗透,从而带动推理算力需求的爆发。同时,deepseek V3、R1 模型,以及
5、 1.5B至 70B 的蒸馏模型均为开源,可部署在端侧,帮助端侧 AI 渗透。宏观维度,海内外大厂加码资本开支趋势延续。海外大厂微软、Meta 2024 年资本支出增速保持在 40%以上,谷歌 FY25 全年 Capex 为 750 亿美元,相比此前市场预期大幅上修。国内,以腾讯、阿里为代表的厂商 24 年前三季度加码 Capex。字节 2025 年算力资本开支有望向 Meta 看齐,小米也即将入局大模型,算力军备竞赛仍在持续。本轮预期差在国产算力性能和生态突破。2024 年国产 AI 芯片性能、生态均有突破,部分产品硬件算力指标接近英伟达 H100。软件生态方面,海光 DTK 学习 CUDA
6、,有“类 CUDA”属性,华为昇腾采用全栈自有路线,工具链完备,适配程度高、算子丰富、社区活跃,有望成全球 AI 算力“第二极”。建议关注:浪潮信息、神州数码、紫光股份、海光信息、泰嘉股份、澜起科技、中芯国际、盛科通信-U、烽火通信,中兴通讯等。风险提示:技术路线不确定;技术研发迭代进展不及预期;供应链稳定风险;竞争加剧风险。请务必仔细阅读正文之后的各项信息披露与声明 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第2页 共24页 简单金融 成就梦想 投资案件 结论和投资分析意见 训练范式、架构创新、工程优化三大因素共同推动模型成本下降。开源+蒸馏趋势下 AI 模型智能平权开启,杰文斯
7、悖论生效,算力总需求仍可能增加。“算法优化成本下降渗透率提升强化训推投入”闭环逻辑持续。宏观维度,海内外大厂加码资本开支趋势延续。本轮预期差在国产算力性能和生态突破。兼容 CUDA 路线海光信息、以及自成体系路线华为昇腾为国产厂商中进展最快,用户使用体验佳,新产品有望更快放量。原因与逻辑 AI 大模型训练范式正在转向多阶段,强化学习算力投入仍需提升。Deepseek V3和 R1 模型爆火,佐证了后训练阶段、推理阶段的 Scaling Law。我们认为这两大Scaling Law 仍处于起步阶段,模型厂商将继续加码强化学习,算力投入仍有增量空间。模型架构创新,训推成本降低正在进行时。1)MoE
8、 混合专家模型:降低训练过程激活参数量以减少计算量,已几乎成为标配;2)注意力机制的改进:线性注意力机制、稀疏注意力机制,将计算复杂度、KV-Cache 降低,优化推理成本。开源+蒸馏趋势下 AI 模型智能平权开启,杰文斯悖论可能生效。“算法优化成本下降渗透率提升强化训推投入”闭环逻辑持续。同时,deepseek V3、R1 模型,以及 1.5B 至 70B 的蒸馏模型均为开源,可部署在端侧,帮助端侧 AI 渗透。有别于大众的认识 市场认为,Deepseek 出圈,对于算力总需求会产生较大影响。我们认为,Deepseek 以低成本做到高性能,且完全开源,加速模型普惠,同时蒸馏技术趋势也在强化,
9、杰文斯悖论有望在 AI 推理领域生效,推理算力需求将快速提升。市场认为,英伟达 CUDA 生态壁垒难以突破,一方面是其与 AI 开发框架厂商的紧密支持,另一方面是 CUDA 中众多的针对性优化,和庞大的用户群体(迁移其他平台需要学习成本)。我们认为,1)Deepseek 使用 PTX 编码而非 CUDA 标准库,证实 CUDA 壁垒正在弱化。2)GPU 编程平台的学习成本和针对性优化,确实仍需要人才、用户、资金和时间的积累,但并非坚不可摧,且国产厂商如华为昇腾、海光信息均已有较快进展。gZcZhXpYnVnMmO7N8Q7NoMnNpNnQiNnNnPfQqQxP7NmMuNMYnPpPxNs
10、QmR 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第3页 共24页 简单金融 成就梦想 1算法:训练范式+模型架构创新.5 1.1 训练范式:后训练+推理 Scaling law 崛起.5 1.2 模型架构:线性/稀疏注意力机制、MoE 等流行.7 2算力:工程优化降低训推成本.10 3开源等普惠趋势下,算力总量需求仍然乐观.14 3.1 海内外大厂加码资本开支.15 3.2 预期差:国产性能与生态的突破.17 4.建议关注.21 5.风险提示.21 目录 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第4页 共24页 简单金融 成就梦想 图表目录 图 1:AI 发展的三大
11、 Scaling Law.5 图 2:延长模型测试时的思考和计算时间,模型准确性得到指数级提升.5 图 3:o1 模型在多项测评上较 GPT-4o 显著提升.6 图 4:OpenAI o1(草莓)分配给后训练和推理的资源显著提升.7 图 5:MoE 模型训练时仅激活一部分专家及参数.7 图 6:Deepseek MoE 架构.7 图 7:Minimax-01 使用的线性注意力机制将计算复杂度降低至 O(N).9 图 8:MQA 架构所有注意力头的 query 都使用相同的 key 计算它们的注意力.9 图 9:集群有效算力与集群规模、算力利用率和集群可用度成正比.10 图 10:模型并行技术.
12、11 图 11:流水线并行技术.11 图 12:DeepSeek V3 训练仅花费 557.6 万美金.12 图 13:FP8 混合精度训练证实可行.12 图 14:Dualpipe 减少了流水线并行的“气泡”,即等待时间.12 图 15:175B 模型,MFU 在 40%66%之间.13 图 16:模型性价比(MMLU Cost/1M Token)不断提升.13 图 17:DeepSeek-R1 蒸馏模型与其他可比模型在推相关基准上的比较.14 图 18:海内外大厂 Capex 支出明显提速,国内落后海外一个季度,但增速更高15 图 19:阿里巴巴资本支出(百万美元)及同比增速.16 图 2
13、0:腾讯资本支出(百万人民币)及同比增速.16 图 21:阿里、腾讯资本支出(亿美金)24 前三季度较 23 全年已接近翻倍.17 图 22:DTK 与 CUDA 结构相似度高.19 图 23:通过 HIPify 工具实现低成本转换.19 图 24:华为昇腾计算工具栈框架已经搭建起来.20 表 1:国产厂商芯片性能迭代,性价比逐渐提升.17 表 2:可比公司估值表.21 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第5页 共24页 简单金融 成就梦想 1算法:训练范式+模型架构创新 1.1 训练范式:后训练+推理 Scaling law 崛起 黄仁勋在 CES2025 演讲表示,AI
14、 发展遵循三个 Scaling Law:1)Pre-training Scaling Law:预训练阶段,AI 模型的通用性能与训练数据量、参数量大小和算力投入成正比。2)Post-Training Scaling Law:在预训练后通过强化学习、人类反馈等技术优化模型的一系列技术,提升算力投入对模型效果有正向影响。3)Test-time(“Reasoning”)Scaling Law:在推理阶段,通过多步推理延长模型的思考过程,增加推理算力投入能够实现更好的效果。图 1:AI 发展的三大 Scaling Law 资料来源:CES2025(全球消费电子展 2025),申万宏源研究 后训练和推理
15、阶段 Scaling law 重要性正在提升。24H2 之前,AI 模型的发展重心在于 Pre-training Scaling Law,大模型厂商不断做大模型参数、训练数据量,投入尽可能多的训练算力资源。而 24 年 7 月后,随着 openAI o1 模型的发布,Post-training 阶段的强化学习和 Test-time compute 的重要性不断提升,24 年 12 月 deepseek v3、r1 的发布更加强化了后训练及测试时计算的地位。图 2:延长模型测试时的思考和计算时间,模型准确性得到指数级提升 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第6页 共24页 简
16、单金融 成就梦想 资料来源:OpenAI(AI 研究机构),申万宏源研究 注:AIME 用于衡量模型的竞赛数学能力 图 3:o1 模型在多项测评上较 GPT-4o 显著提升 资料来源:OpenAI(AI 研究机构),申万宏源研究 这种趋势下,训练阶段的算力需求迎来了新的增量,即后训练 RL 的算力需求、以及测试时计算的算力需求。对比 openAI GPT-4o 和 o1 preview 模型的参数量和训练算力消耗量,我们推测后训练+测试时计算整体的算力投入或超过预训练阶段。根据微软论文MEDEC:A benchmark for medical error detection and corre
17、ction in clinical notes,GPT-4o的参数约为 2000 亿,o1-preview 的参数约为 3000 亿。而根据澎湃新闻,o1-preview模型输入价格为 15 美元/百万 token,输出价格 60 美元/百万 token,远高于 GPT-4o(输入 5 美元、输出 15 美元)。我们认为,o1-preview 收费水平达到了 GPT-4o 的 3-4 倍,实际代表其训推成本高于 GPT-4o 数倍,而参数量仅为 GPT-4o 的 1.5 倍,折射的便是后训练+推理阶段的高算力成本投入。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第7页 共24页 简单
18、金融 成就梦想 图 4:OpenAI o1(草莓)分配给后训练和推理的资源显著提升 资料来源:36Kr(新闻媒体),申万宏源研究 1.2 模型架构:线性/稀疏注意力机制、MoE 等流行 模型架构对于预训练阶段算力消耗的影响可以直观用公式表示:Pre-training 阶段训练算力需求=训练 token 量*FLOPS per token FLOPS per token 与模型架构相关。核心变量包括前馈网络的设计(MLP、MoE、FFN 等)、参数量、模型层数、注意力机制的设计。当前我们观测到主流的技术包括:MoE、线性注意力机制等。MoE 混合专家模型(Mixture of Experts),
19、由门控网络(GateNet)和多个专家网络(Experts)组成。每个专家都是一个单独的神经网络模型。训练中,输入数据由门控网络分配给最适合的专家模型,因此每个阶段只有部分专家的参数被激活,从而减少了算力的消耗。例如,DeepSeek-V2-Lite 模型参数量为 16B,但每个 token 仅激活 2.4B 个参数;MiniMax-01 模型内使用 32 个专家模块,虽然总参数量达到了 4560 亿,但每个 token 激活的参数仅为 45.9 亿。图 5:MoE 模型训练时仅激活一部分专家及参数 图 6:Deepseek MoE 架构 资料来源:53ai(AI 大模型应用平台),申万宏源研
20、究 资料来源:深度求索 v3 技术报告,申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第8页 共24页 简单金融 成就梦想 24H2 以来,国内外多数模型都已将 MoE 架构作为模型结构标配,但在 MoE 模型数量、激活方式,以及如何实现多 MoE 的负载均衡上,有所差异。使用 MoE 模型,对算力需求影响是此消彼长的,整体而言,能够将训练算力消耗降低。首先,训练次数变多。MoE 结构中每个专家模型和门控网络模型的训练是单独进行的,训练好后还要对整个 MoE 进行联合训练,确保系统的整体性能。一般来说,门控网络模型参数在几百万到千万,算力消耗不大,重点是专家模型的训练,尽
21、管部分专家可以复用过往已经训练好的模型,这种方案能够减少算力需求的量级,但未必是性能最优的。其次,MoE 可能会加大显存和通信的压力,影响算力使用效率。MoE 架构需要将各专家放在不同的计算节点上,引入额外的并行维度和网络通信,专家之间的不平衡性可能导致系统延迟和计算负载的增加,极端情况下可能会浪费 50%以上的集群算力。DeepseekMoE 使用的动态路由和无辅助损失的负载平衡技术,能够有效平衡显存和通信压力,实现了算力使用效率的最大化。这也是工程优化的一部分。1)动态路由(Dynamic Routing):每个 token 根据其与专家的亲和度分数被路由到一组专家。这种动态路由机制确保了
22、模型可以根据输入数据的需求灵活地分配计算资源。2)无辅 助损 失的 负载 平衡 技术(Auxiliary-Loss-Free Load Balancing),Deepseek 通过动态调整每个专家的偏置项来平衡负载,而不是依赖于辅助损失。这种方法减少了因负载平衡而对模型性能的负面影响。而 MiniMax-01 采用了 全局路由策略,通过引入额外的全收集通信步骤,在不同专家并行(EP)组之间同步待处理 token 数量,从而实现负载均衡,减少 token 丢弃率。Softmax attention 是 Transformer 的核心注意力机制,它是 Transformer 成为大模型基石的关键,
23、但同时它也有着先天的问题它会让模型在处理长文本时计算复杂度达到 n2。改进注意力机制降低计算复杂度,业界已有较多尝试。针对 Softmax 的优化,业界始终在尝试,例如谷歌 Gemini2.0 使用的稀疏注意力,包括局部注意力(Local Attention)和块状注意力(Block-wise Attention),每个 token 仅与其邻近的固定窗口内的 token/同一块内的 token 进行交互。Minimax-01 将线性注意力机制由实验引入到商业实践中。线性注意力机制降低了计算复杂度,且能够节约显存。传统的 Softmax 注意力就像每个人都要和房间里的其他人握手(N*N),而线性
24、注意力就像每个人只和一个人握手然后把信息传递下去(N),当房间里人很多时,后者效率会高很多。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第9页 共24页 简单金融 成就梦想 图 7:Minimax-01 使用的线性注意力机制将计算复杂度降低至 O(N)资料来源:Minimax-01 技术报告,申万宏源研究 除训练算力消耗外,减少 KV-Cache 也是模型架构创新的重要目标。模型的云端推理在 GPU 上进行,而单张 GPU 的显存是有限的,用于存放 1)模型的参数和前向计算的激活值,与模型参数量和层数相关;2)模型的 KV Cache,除模型的体量外,输入长度也会影响,且在推理过程中
25、是动态增长的,当 Context 长度足够长时,它的大小就会占主导地位,可能超出一张卡甚至一台机(8 张卡)的总显存量。通信带宽是推理速度的瓶颈。GPU“卡内通信带宽 卡间通信带宽 机间通信带宽”,由于“木桶效应”,模型部署时跨的设备越多,受设备间通信带宽的“拖累”就越大,因此推理端部署模型的原则是:能一张卡部署的,就不要跨多张卡;能一台机部署的,就不要跨多台机。所以,减少 KV Cache 的目的就是要实现在更少的设备上推理更长的 Context,或者在相同的 Context 长度下让推理的 batch size 更大,从而实现更快的推理速度或者更大的吞吐总量。当然,最终目的都是为了实现更低
26、的推理成本。常用的技术手段包含两类 1)改进注意力机制;2)对模型进行量化。改进注意力包括 FlashAttention、MLA、MQA、GQA 等。MQA/GQA 架构已经被 Google Research 的 PaLM、TII 的 Falcon 模型、Meta 的 Llama-2 70B 和 Mistral-7B 等所实现。图 8:MQA 架构所有注意力头的 query 都使用相同的 key 计算它们的注意力 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第10页 共24页 简单金融 成就梦想 资料来源:思否,申万宏源研究 2算力:工程优化降低训推成本 Infra 的优化具有倍增效
27、应,对训练效率,稳定性,实验效率改进,都可以直接映射为降低的卡时成本。一般而言,提升集群算力利用率(MFU)和集群可用度,可以降低集群算力规模,从而实现成本节约。图 9:集群有效算力与集群规模、算力利用率和集群可用度成正比 资料来源:华为 AIDC 白皮书,申万宏源研究 提升集群算力利用率,要从单机效率和集群线性度 2 个方面入手。1)单机效率优化的主要思路是软硬件协同优化。具体措施包括:小算子融合成大算子,例如 Flash Attention 等技术;硬件亲和算子优化,提升算子与硬件适配性,从而提升计算效率。2)集群线性度的提升主要思路是算力、网络和存储的协同优化。常见的训练算法优化技术包括
28、分布式训练、计算优化、模型压缩等技术。分布式训练优化是最重要的技术之一,包括:行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第11页 共24页 简单金融 成就梦想 1)数据并行(Data Parallelism):多个设备共享模型权重,不同设备处理不同数据,通过 All-Reduce 等通信机制同步梯度;2)模型并行(Model Parallelism):将模型切分为多个部分,分布到不同设备上进行并行计算;3)流水线并行(Pipeline Parallelism):将大模型的不同层分配到不同的 GPU上,以降低单个 GPU 的显存消耗;4)张量并行(Tensor Parallelism
29、):将模型的张量沿着特定维度进行切分,每个 GPU 保持整个张量的一部分;一般而言,几大并行技术不会同时使用,最多同时使用其中 2-3 项,来减少算力损耗,提升整体训练的效率。图 10:模型并行技术 图 11:流水线并行技术 资料来源:中国开发者网络,申万宏源研究 资料来源:中国开发者网络,申万宏源研究 计算优化技术包括:1)混合精度训练(Mixed Precision Training):使用 FP16、FP32 或者 FP8 的混合精度,提升训练速度并降低显存占用;2)梯度累积(Gradient Accumulation):通过累积多个小批次的梯度来模拟更大的批处理大小;3)梯度检查点(G
30、radient Checkpointing):在反向传播过程中,只保留部分梯度信息,以减少内存占用。Deepseek v3 是 Infra 工程优化的代表。根据技术报告,DeepSeek V3 训练仅使用了 2048 块 Nvidia H800 GPU 组成的集群,共 256 个节点,每个节点包含 8 个 GPU,通过 NVLink 和 NVSwitch 在节点内部连接,而节点间通过 InfiniBand(IB)进行通信。整体训练时间为两个月。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第12页 共24页 简单金融 成就梦想 假设训练过程 24 小时不间断,与 DeepSeek V3
31、 评分相当的 Llama 3 405B 的训练时长是 3080 万 GPU 小时(1.6 万张 H10080 天),而 DeepSeek V3 为 2048 张H80056.7 天。图 12:DeepSeek V3 训练仅花费 557.6 万美金 资料来源:DeepSeek V3 Technical Report(深度求索 v3 技术报告),申万宏源研究;注:假设 H800 租赁费用为 2 美金/GPU 小时 模型公开后,迅速获得了 OpenAI 创始成员 Karpathy、Meta 科学家田渊栋等的称赞。OpenAI 创始成员 Karpathy 对此赞道:“DeepSeek V3 让在有限算
32、力预算上进行模型预训练这件事变得容易,DeepSeek V3 看起来比 Llama 3 405B 更强,训练消耗的算力却仅为后者的 1/11。”Deepseek V3 使用的技术包括:FP8 混合精度训练、流水线并行等。1)FP8 混合精度训练框架。DeepSeek-V3 将大部分核心计算,特别是矩阵乘法(GEMM)操作,执行在 FP8 精度下,某些对精度敏感的操作(如嵌入层、输出头、MoE 门控模块、归一化操作和注意力操作)仍然在 BF16 或 FP32 等更高精度下执行,以确保训练的稳定性。图 13:FP8 混合精度训练证实可行 资料来源:DeepSeek V3 Technical Rep
33、ort(深度求索 v3 技术报告),申万宏源研究 DualPipe 算法。Dualpipe 是一种流水线并行算法,在流水线并行中,模型被分割成多个阶段(或称为流水线阶段),每个阶段包含模型的一部分层。不同的 GPU 可以同时处理不同的流水线阶段。在传统的流水线并行训练中,由于不同 GPU 上的操作可能需要不同的时间来完成,可能会出现所谓的“气泡”(即某些 GPU 在等待其他 GPU 完成其部分操作的情况)。DualPipe 通过优化调度策略,减少了这些气泡,使得 GPU 的利用率更高。此外,Dualpipe 可实现一些 GPU 执行计算任务的同时,其他 GPU 可以执行通信任务(如数据传输)并
34、通过计算与通信重叠隐藏了训练过程中的大部分通信开销。图 14:Dualpipe 减少了流水线并行的“气泡”,即等待时间 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第13页 共24页 简单金融 成就梦想 资料来源:DeepSeek V3 Technical Report(深度求索 v3 技术报告),申万宏源研究 高效的跨节点全对全通信内核,充分利用 InfiniBand(IB)和 NVLink 带宽。精心优化了内存占用,使得无需使用昂贵的张量并行即可训练 DeepSeek-V3。根据清华大学方佳瑞博士测算,DeepSeek V3 的训练 MFU 约为 36.2%39%。一般来说,特定
35、优化后的 MFU 保持在 30%-70%之间,Deepseek V3 的 MFU 仍有提升空间,但根据方佳瑞博士的测算,相较半年之前,在同一集群完成训练的 DeepSeek V2,DeepSeek V3 提效 61%。若按照英伟达 H800 租金 2 美金/GPU/小时计算,DeepSeek V3 算力成本较 V2 节约了约 1200 万人民币。图 15:175B 模型,MFU 在 40%66%之间 资料来源:MegaScale:Scaling Large Language Model Training to More Than 10,000 GPUs(大规模:将大型语言模型训练扩展到超过 1
36、0,000 个 GPU,作者为字节跳动及北京大学相关成员),申万宏源研究 注:本次实验采用的模型为 175B 参数,一般而言,不同集群数量使用了不同的 batch size(数据并行方式)总体来说,infra 算法优化带来的效率提升每半年约 50%,切实带动了模型成本/价格的下降,有望加速应用的渗透。图 16:模型性价比(MMLU Cost/1M Token)不断提升 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第14页 共24页 简单金融 成就梦想 资料来源:Semianalysis(半导体分析),申万宏源研究 3开源等普惠趋势下,算力总量需求仍然乐观 蒸馏小模型性能飞跃。模型蒸馏
37、的核心思想是通过知识迁移的方式,将一个复杂的大模型(教师模型)的知识传授给一个相对简单的小模型(学生模型),简单概括就是利用教师模型的预测概率分布作为软标签对学生模型进行训练,从而在保持较高预测性能的同时,极大地降低了模型的复杂性和计算资源需求,实现模型的轻量化和高效化。本次 Deepseek 团队通过将 DeepSeek-R1 生成的 80 万条数据用于微调开源模型(Qwen、Llama 系列),实现了推理能力的高效迁移。其蒸馏后的 7B 参数模型在 AIME 2024 上达 55.5%,超越 32B 规模的 QwQ-Preview;70B 蒸馏模型在 MATH-500(94.5%)等任务接
38、近 o1-mini。同时,deepseek 开源发布了 1.5B 至 70B 的蒸馏模型,为社区提供低成本、高性能的推理解决方案,可在端侧设备本地部署这些模型,有望加速端侧 AI 的渗透。图 17:DeepSeek-R1 蒸馏模型与其他可比模型在推相关基准上的比较 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第15页 共24页 简单金融 成就梦想 资料来源:Deepseek R1 技术报告,申万宏源研究 我们认为杰文斯悖论可能在 AI 领域生效,Deepseek V3 和 R1 发布后,H100 价格上涨,也是佐证。杰文斯悖论(Jevons Paradox)是一种经济现象,指的是当技
39、术进步使某种资源的使用效率提高时,该资源的总体消耗量反而会增加。这一现象最早由经济学家威廉斯坦利杰文斯(William Stanley Jevons)在 1865 年提出,当时他观察到蒸汽机效率的提高导致煤炭消耗量增加。因为 AI 模型的训练和推理变得更加高效和经济,企业和研究机构更愿意大规模部署这些模型,从而推动了对计算资源的总体需求。3.1 海内外大厂加码资本开支 从宏观角度,我们观测海内外大模型及应用厂商的资本开支,可以得出中期 AI 算力需求并不会下降的结论。海外看,微软在 23Q2 开始加速资本支出,谷歌在 23Q3 加速,而 META 和亚马逊则在 23Q4 加速,且此后增速始终维
40、持,并未滑落。图 18:海内外大厂 Capex 支出明显提速,国内落后海外一个季度,但增速更高 资料来源:各公司财报,Bloomberg(彭博资讯),申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第16页 共24页 简单金融 成就梦想 国内厂商阿里、腾讯分别于 23Q4、23Q3 开始加大资本开支,且增速显著高于海外厂商。以腾讯为例,24Q1-Q3,其资本开支同比增速分别为 225.5%、120.8%、113.5%,根据腾讯 2023Q4 法说会,在其总资本支出中,当季运营资本支出同比增长超过三倍,达到 67 亿元人民币,主要是由于对 GPU 和服务器增加投资。国内大厂对
41、于算力投资的重视程度持续提升。图 19:阿里巴巴资本支出(百万美元)及同比增速 图 20:腾讯资本支出(百万人民币)及同比增速 资料来源:Bloomberg(彭博资讯),申万宏源研究 资料来源:Bloomberg(彭博资讯),申万宏源研究 字节、小米等加大发力,算力军备竞赛仍在继续。2025 年字节跳动算力资本开支有望向海外大厂靠拢。12 月 18 日,字节在 2024 火山引擎 FORCE 会议表示,各项能力加持下,豆包大模型日均 tokens 增长使用量已超过 4 万亿,较 7 个月前首次发布时增长了 33 倍。1)汽车,豆包大模型已与八成主流汽车品牌合作,过去 7 个月汽车行业日均Tok
42、ens 消耗增长了 50 倍;2)智能终端,接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍;3)其它企业客户最近 3 个月,在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。我们认为,字节跳动在 2025 年 AI 业务布局将加速,而算力作为支撑 AI 渗透的基础设施,将是明年字节投资的重中之重,字节 25 年相关投入规模有望向海外大厂如 Meta等靠拢,带动算力产业链相关公司业绩继续释放。除字节外,小米也有望入局 AI
43、 大模型。12 月 20 日,据第一财经报道,DeepSeek开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。此前 DeepSeekV2 在模型架构上的重要创新在于对 MLA(Multi-head Latent Attention)的采用,这项技术在降低大模型使用成本上发挥了关-100%-50%0%50%100%150%200%250%300%350%400%05001,0001,5002,0002,5003,0002016Q1A2016Q3A2017Q1A2017Q3A2018Q1A2018Q3A2019Q1A2019Q3
44、A2020Q1A2020Q3A2021Q1A2021Q3A2022Q1A2022Q3A2023Q1A2023Q3A2024Q12024Q3资本支出同比QoQ-100%-50%0%50%100%150%200%250%300%02,0004,0006,0008,00010,00012,00014,00016,00018,0002016Q12016Q32017Q12017Q32018Q12018Q32019Q12019Q32020Q12020Q32021Q12021Q32022Q12022Q32023Q12023Q32024Q12024Q3资本支出同比QoQ 行业深度 请务必仔细阅读正文之后的各项
45、信息披露与声明 第17页 共24页 简单金融 成就梦想 键作用,而罗福莉是这项工作的核心人物之一。根据界面新闻,小米正在着手搭建自己的GPU 万卡集群,将对 AI 大模型大力投入。小米大模型团队在成立时已有 6500 张 GPU 资源。小米对 AI 大模型的重视度提升此前已有信号。图 21:阿里、腾讯资本支出(亿美金)24 前三季度较 23 全年已接近翻倍 资料来源:各公司财报,Bloomberg(彭博资讯),申万宏源研究 3.2 预期差:国产性能与生态的突破 我们认为,2025 年国内大厂算力投资中,国产算力厂商有望扮演更重要的角色。Deepseek R1 模型没有完全使用 CUDA 标准库
46、,而是自行编写部分 PTX(NV 芯片的底层语言机器码)。我们认为 CUDA 壁垒正在弱化,Deepseek 团队绕开了 CUDA 标准库反而获得了更高的效率,意味着 CUDA 并非最优解。此外,在新的模型架构趋势下,新兴算子的需求提升,这个领域英伟达和其他国产 AI 芯片站在同一起跑线,国产 AI 芯片追赶的窗口期也已经到来。当前,华为昇腾、寒武纪旗下部分产品硬件算力指标已经接近英伟达 H100,海光信息,以及阿里平头哥、昆仑芯、燧原科技,以及其他国产初创厂商如沐曦、摩尔线程等,性能也快速突破,有望在推理端放量。表 1:国产厂商芯片性能迭代,性价比逐渐提升 厂商 GPU 型号 推出时间 用途
47、 工艺 晶体管数量 算力 内存容量 内存带宽 互联带宽 功耗 英伟达 H20 2023 训练及推理 4nm-148 TFLOPSFP16 74 TFLOPSTF32 96GB HBM3 4.0 TB/s NVLink 900 GB/s 400W L20 2023 训练及推理 5nm 763 亿 注:芯片面积609mm2 119.5 TFLOPSFP16 59.8 TFLOPSTF32 48GB GDDR6 864GB/s-275W L2 2023 训练及推理 5nm-96.5 TFLOPSFP16 48.3 TFLOPSTF32 24GB GDDR6 300GB/s-昇腾 910 系列 202
48、3 训练 7nm-320 TFLOPSFP16 64GB-HCCS 400776334576116365275524826345723224835239718631427322824631532338301002003004005006007002021202220232024前三季度阿里亚马逊腾讯微软Meta谷歌 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第18页 共24页 简单金融 成就梦想 HBM2e 392GB/s W 寒武纪 MLU370-X8 2022.3 训练及推理 7nm 390 亿 24 TFLOPSFP32 96 TFLOPSFP16 48GB LPDDR5 6
49、14.4GB/s MLU-Link 200GB/s 250W 平头哥 含光 800 2019 推理 12nm 170 亿 825 TOPSINT8 205 TOPSINT16-276W 昆仑芯 R200 2022 训练 7nm-128 TFLOPSFP16 32 TFLOPSFP32 32GB GDDR6 512GB/s-150W 沐曦集成 MXC500(OAM)2023 训练及推理-280 TFLOPSFP16 36 TFLOPSFP32(matrix)64GB HBM2e 1.8TB/s MetaXLink 450W MXN100 2023 推理 7nm-160 TOPSINT8 80 T
50、FLOPSFP16 容量不详 HBM2E-壁仞科技 BR100 2022.8 训练-256TFLOPSFP32 1024TFLOPSBF16 64GB HBM2E 2.3TB/s Blink 512GB/s 400W 燧原科技 云燧T21(OAM)2021 训练 12nm-32 TFLOPSFP32 128 TFLOPSFP16 32GB HBM2E 1.6TB/s-300W 云燧 i20 2021 推理 12nm-32 TFLOPSFP32 128 TFLOPSFP16 16GB HBM2E 819GB/s-150W 摩尔线程 MTT S4000 2023.9 训练及推理-25 TFLOPS
51、FP32/FP16 50 TFLOPSTF32 100 TFLOPSFP16 200 TOPSINT8 48GB GDDR6 768GB/s MTLink 240GB/s 450W MTT S3000 2022.11 训练及推理 12nm 220 亿 10.6 TFLOPSFP32 32GB GDDR6 448GB/s-250W 天数智芯 天垓 150 2023.12 训练-45 TFLOPSFP32 190 TFLOPSFP16 380 TOPSINT8 64GB HBM2e 1.2TB/s-350W 天垓 100 2021.9 训练 7nm 240 亿 37 TFLOPSFP32 147
52、TFLOPSFP16 295 TOPSINT8 32GB HBM2 1.2TB/s 64 GB/s 250W 智铠 100 2022.12 推理 7nm-24 TFLOPSFP32 96 TFLOPSFP16 384 TOPSINT8 32GB HBM2 800GB/s-150W 资料来源:各公司官网,wccftech(科技资讯网站),TechPowerUp(科技资讯网站),百度百科,奇客 solidot(技术,电子工程专辑,快科技,CSDN(中国开发者网络),CNW 网界(科技资讯网站),极客公园,证券时报,Cloud Hin 官网(服务器提供商),智东西,腾讯新闻,新浪网,申万宏源研究 此
53、外,软件生态替代 CUDA 层面,国产厂商也有较大突破。总体来说,国产厂商分为两大路径,一是兼容 CUDA,以海光信息为代表,二是全栈自有,以华为昇腾、寒武纪为代表。(一)海光信息 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第19页 共24页 简单金融 成就梦想 海光 DTK 是海光 DCU 计算平台,基于开源 ROCm 定制。DTK 是海光的计算平台,封装了 ROCm 生态相关组件,并针对 DCU 硬件进行适配与优化,为 DCU 的计算引擎。ROCm 为 AMD 在 2016 年推出的以 CUDA 为蓝本建立的开源计算平台,旨在打破英伟达 CUDA 生态的统治,同时尽可能地提高兼
54、容性、降低用户迁移成本。DTK 在结构上与 CUDA 相似度高。在 AI 领域中,计算平台向上支持 AI 应用,向下控制 AI 芯片硬件,是 AI 软件与 AI 芯片的桥梁。从计算平台结构看,DTK 与 CUDA 相似度较高,将计算平台分为应用程序、软件驱动、硬件驱动和芯片四个层级,除硬件不同外,DTK 对 CUDA 逐层对齐。AI 开发框架层,DTK 支持 TensorFlow、Pytorch、Caffe 等主流大模型框架,同时支持百度飞桨等。GPU 计算平台层面,DTK“类 CUDA“属性来自对 HIP 对 CUDA 的学习。HIP 是DTK 的编程语言,与 CUDA 编程语法类似,在软件
55、驱动层,对所有常用的 CUDA API 进行了开发,大多数情况下将“cuda”字符替换为“hip”即可完成语言转换,实现源码级别的兼容。开发人员在生态迁移上学习成本较低。图 22:DTK 与 CUDA 结构相似度高 资料来源:申万宏源研究 DTK“类 CUDA“属性来自对 HIP 对 CUDA 的克隆。HIP 是 DTK 的编程语言,与CUDA 编程语法类似,在软件驱动层,对所有常用的 CUDA API 进行了拷贝,大多数情况下将“cuda”字符替换为“hip”即可完成语言转换,实现源码级别的兼容。开发人员在生态迁移上学习成本较低。HIPify:实现 CUDA 到 HIP 的自动转换。HIPi
56、fy 工具集能够帮助开发人员实现CUDA 文件到 HIP 文件的自动源码级转换,由于 HIP 语言本身与 CUDA 语言相似度较高,转换的准确率能够保证。开发人员既能够实现现有程序的自动迁移,同时也能够保留原有编程习惯,在 CUDA 环境中完成编程,再自动转换为 HIP 语言。图 23:通过 HIPify 工具实现低成本转换 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第20页 共24页 简单金融 成就梦想 资料来源:申万宏源研究 (二)华为昇腾 与海光信息 DTK 尽量学习 CUDA 的做法不同,华为采用的是全栈自有的方式。从2018-2019 年发布昇腾系列硬件开始,完善自身软件
57、工具链,参考常用 CUDA 软件功能+用户反馈,完善软件工具,现已形成了 AI 开发框架 Mindspore+GPU 计算平台 CANN全栈自有的软件工具栈。图 24:华为昇腾计算工具栈框架已经搭建起来 资料来源:华为昇腾官网,申万宏源研究 1)从软件工具链的完备程度看,华为已经达到较好水平。2)AI 开发框架适配程度:2023 年 10 月,Pytorch2.1 宣布与华为昇腾 NPU 合作,昇腾对 PyTorch API 的支持。华为自身也开发了框架适配器,帮助 Tensorflow、Caffe等第三方框架转换到 Mindspore。3)算子丰富度看,CANN 目前提供了超过 1400 个
58、硬件亲和的高性能算子。CANN目前已全面支持主流大模型所需要的基础算子和 80 多个大模型融合算子。可覆盖主流 AI 框架的算子加速需求,同时,为满足开发者的算法创新需求,CANN 开放了自定义算子开发的能力,开发者可根据自身需求选择不同的算子开发方式。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第21页 共24页 简单金融 成就梦想 4)从技术文档、社区活跃度和用户量来看,华为已是国产厂商中最靠前。且华为拥有强大的人才、资源和品牌力量,通过举办展会、技术交流会、举办挑战赛、免费向高校开发者开放昇腾云算力等多种方式,扩大昇腾计算的生态圈,培养用户使用习惯。我们认为,华为选择的这条路线
59、,其他国产厂商难以复制,且更为困难。但市场份额一旦突破某一阈值(参考操作系统,该数值为 16%),将有望成为全球 AI 算力的“第二极“。4.建议关注 1)国产 AI 芯片相关服务器:浪潮信息,神州数码,紫光股份;2)国产 AI 芯片:海光信息,寒武纪-U;3)国产服务器生态相关:软通动力,中国软件国际(港股);4)算力产业链供应商:申万电子覆盖:泰嘉股份(电源)、澜起科技、中芯国际;申万通信覆盖:盛科移动、烽火通信、中兴通讯。表 2:可比公司估值表 股票代码 股票简称 2025/2/7 归母净利润(亿元)PE 总市值(亿元)2023A 2024E 2025E 2026E 2023A 2024
60、E 2025E 2026E 000977.SZ 浪潮信息 887 17.8 23.0 28.7 34.3 50 39 31 26 000034.SZ 神州数码 267 11.7 14.0 16.8 20.0 23 19 16 13 000938.SZ 紫光股份 808 21.0 23.5 29.8 35.4 38 34 27 23 688041.SH 海光信息 3,247 12.6 19.1 28.0 38.0 257 170 116 85 688256.SH 寒武纪-U 2,500(8.5)(4.6)0.3 4.8 -9311 523 301236.SZ 软通动力 683 5.3 1.6 7
61、.8 9.8 128 427 87 70 688008.SH 澜起科技 828 4.5 13.7 20.5 28.0 184 60 40 30 688981.SH 中芯国际 8,180 48.2 40.1 52.4 65.1 170 204 156 126 688702.SH 盛科通信-U 341(0.2)(0.7)0.3 1.3 -1145 255 600498.SH 烽火通信 242 5.1 6.8 9.4 11.7 48 36 26 21 000063.SZ 中兴通讯 2,053 93.3 98.7 106.9 118.0 22 21 19 17 资料来源:Wind,申万宏源研究;注:盈
62、利预测来自 Wind 一致预期,软通动力采用业绩预告中值 5.风险提示 技术路线不确定。AI 芯片技术仍处于发展阶段,技术迭代速度较快,技术发展路径尚在探索中,尚未形成具有绝对优势的架构和系统生态。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第22页 共24页 简单金融 成就梦想 技术研发迭代进展不及预期。AI 芯片属于前沿核心科技领域,现有产品升级更新和新产品开发需要持续投入大量的资金和人员,但研发项目的进程及结果具有不确定性,如果厂商在研发方向上未能做出正确判断,在研发过程中未能持续突破关键技术或性能指标未达预期,厂商将面临前期研发投入难以收回、预计效益难以达到的风险,将对厂商业
63、绩产生不利影响。供应链稳定风险。AI 芯片公司通常采用 Fabless 模式经营,供应商包括 EDA 工具厂商、IP 授权厂商、服务器厂商、晶圆制造厂和封装测试厂等。由于集成电路领域专业化分工程度及技术门槛较高,部分供应商的产品具有稀缺性和专有性,如不能与其保持稳定的合作关系,或由于地缘政治、厂商处于实体清单等其他外部环境因素导致供应商中止与厂商的业务合作,厂商更换新供应商的代价较高,将对厂商生产经营、研发造成不利影响。竞争加剧风险。随着 AI 应用及算法的逐步普及,AI 芯片受到了多家集成电路龙头企业的重视,该领域也成为多家初创集成电路设计公司发力的重点。随着越来越多的厂商推出 AI 芯片产
64、品,该领域市场竞争日趋激烈。而目前,英伟达在全球 AI 芯片领域中仍占有绝对优势。行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第23页 共24页 简单金融 成就梦想 信息披露 证券分析师承诺 本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露 本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本
65、公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过 索取有关披露资料或登录 信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人 华东组 茅炯 021- 银行团队 李庆 021- 华北组 肖霞 010- 华南组 张晓卓 华东创新团队 朱晓艺 021- 华北创新团队 潘烨明 股票投资评级说明 证券的投资评级:以报告日后的 6 个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(Buy):相对强于市场表现 20以上;增持(Outperform):相对
66、强于市场表现 520;中性(Neutral):相对市场表现在55之间波动;减持(Underperform):相对弱于市场表现 5以下。行业的投资评级:以报告日后的 6 个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight):行业超越整体市场表现;中性(Neutral):行业与整体市场表现基本持平;看淡(Underweight):行业弱于整体市场表现。我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整
67、篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系,如果您对我们的行业分类有兴趣,可以向我们的销售员索取。本报告采用的基准指数:沪深 300 指数 法律声明 本报告由上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司,以下简称“本公司”)在中华人民共和国内地(香港、澳门、台湾除外)发布,仅供本公司的客户(包括合格的境外机构投资者等合法合规的客户)使用。本公司不会因接收人收到本报告而视其为客户。客户应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司 网站刊载的完整报告为准,本公司接受客户的后续问询。本报告是基于已公
68、开信息撰写,但本公司不保证该等信息的真实性、准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失,任何形式的分享证券
69、投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司强烈建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险,投资需谨慎。若本报告的接收人非本公司的客户,应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第24页 共24页 简单金融 成就梦想 次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记,未获本公司同意,任何人均无权在任何情况下使用他们。