《AI算力芯片行业深度:主流芯片、驱动因素、产业链及相关公司深度梳理-250414(36页).pdf》由会员分享,可在线阅读,更多相关《AI算力芯片行业深度:主流芯片、驱动因素、产业链及相关公司深度梳理-250414(36页).pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、 1/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI 算力算力芯片行业芯片行业深度:深度:主流芯片主流芯片、驱动因素驱动因素、产业链产业链及及相关公司深度梳理相关公司深度梳理 ChatGPT 热潮引发全球科技企业加速布局 AI 大模型。人工智能进入算力新时代,全球算力规模高速增长,根据相关预测,预计全球算力规模将从 2023 年的 1397EFLOPS 增长至 2030 年的 16ZFLOPS,预计 2023-2030 年复合增速达 50%。AI 算力芯片作为“AI 时代的引擎”,有望畅享 AI 算力需求爆发浪潮,并推动 AI
2、 技术的快速发展和广泛应用。围绕 AI 算力芯片行业,我们来了解当前全球算力发展情况、驱动算力芯片发展的因素,并就算力主流芯片及定制芯片进行详细分析,对产业链构成及国产替代情况、未来发展预期进行分析,并对产业链及相关公司进行梳理,希望帮助大家更好了解 AI 算力芯片行业的发展情况。目录目录 一、AI 算力芯片概述.1 二、算力芯片发展驱动因素及发展现状.5 三、主流算力芯片之 GPU.8 四、AI 算力芯片之定制芯片 ASIC.13 五、AI 算力芯片产业链.17 六、AI 算力芯片国产替代情况.19 七、AI 算力芯片相关公司.21 八、未来展望:DeepSeek 有望推动国产 AI 算力芯
3、片加速发展.31 九、参考研报.35 一、一、AI 算力芯片概述算力芯片概述 1.AI 服务器服务器 AI 服务器是支撑生成式服务器是支撑生成式 AI 应用的核心基础设施。应用的核心基础设施。人工智能产业链一般为三层结构,包括基础层、技术层和应用层,其中基础层是人工智能产业的基础,为人工智能提供数据及算力支撑。服务器一般可分为通用服务器、云计算服务器、边缘服务器、AI 服务器等类型,AI 服务器专为人工智能训练和推理应用而设计。大模型兴起和生成式 AI 应用显著提升了对高性能计算资源的需求,AI 服务器是支撑这些复杂人工智能应用的核心基础设施,AI 服务器的其核心器件包括 CPU、GPU、FP
4、GA、NPU、存储器等芯片,以及PCB、高速连接器等。2/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 2.AI 算力芯片是什么,与算力有何关联算力芯片是什么,与算力有何关联 AI 算力芯片是算力的基石。算力芯片是算力的基石。AI 算力芯片是专门为人工智能(AI)应用提供计算能力的芯片,它是支撑AI 服务器运行的核心部件,能够快速处理大规模数据和复杂的神经网络模型,推动 AI 技术的快速发展和广泛应用。CPU+GPU 是目前 AI 服务器主流的异构计算系统方案,根据 IDC2018 年服务器成本构成的数据,推理型和机器学习型服务器中 CPU+GPU 成本占比
5、达到 50-82.6%,其中机器学习型服务器 GPU 成本占比达到 72.8%。AI 算力芯片具备强大的并行计算能力,能够快速处理大规模数据和复杂的神经网络模型,并实现人工智能训练与推理任务;AI 算力芯片占 AI 服务器成本主要部分,为 AI 服务器提供算力的底层支撑,是算力的基石。AI 算力芯片作为算力芯片作为“AI 时代的引擎时代的引擎”,有望畅享,有望畅享 AI 算力需求爆发浪潮,并推动算力需求爆发浪潮,并推动 AI技术的快速发展和广泛应用。技术的快速发展和广泛应用。3.混合混合 AI 是是 AI 的发展趋势的发展趋势 AI 训练和推理受限于大型复杂模型而在云端部署,而 AI 推理的规
6、模远高于 AI 训练,在云端进行推理的成本极高,将影响规模化扩展。随着生成式 AI 的快速发展以及计算需求的日益增长,AI 处理必须分布在云端和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能。混合 AI 指终端和云端协同工作,在适当的场景和时间下分配 AI 计算的工作负载,以提供更好的体验,并高效利用资源;在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务;而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些 AI 工作负载。与仅在云端进行处理不同,混合 AI 架构在云端和边缘终 3/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告
7、研究报告 端之间分配并协调 AI 工作负载;云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能够实现更强大、更高效且高度优化的 AI。4.算力芯片类型算力芯片类型 AI 算力芯片按应用场景可分为云端、边缘端、终端算力芯片按应用场景可分为云端、边缘端、终端 AI 算力芯片。算力芯片。人工智能的各类应用场景,从云端溢出到边缘端,或下沉到终端,都需要由 AI 算力芯片提供计算能力支撑。云端、边缘端、终端三种场景对于 AI 算力芯片的运算能力和功耗等特性有着不同要求,云端 AI 算力芯片承载处理海量数据和计算任务,需要高性能、高计算密度,对于算力要求最高;终端对低功耗、高能效有更高要求,
8、通常对算力要求相对偏低;边缘端对功耗、性能的要求通常介于终端与云端之间。4/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 根据芯片的设计方法及应用,根据芯片的设计方法及应用,AI 算力芯片可分为通用型算力芯片可分为通用型 AI 芯片和专用型芯片和专用型 AI 芯片。芯片。通用型 AI 芯片为实现通用任务设计的芯片,主要包括 CPU、GPU、FPGA 等;专用型 AI 芯片是专门针对人工智能领域设计的芯片,主要包括 TPU(Tensor Processing Unit)、NPU(Neural Network Processing Unit)、ASIC 等。在通
9、用型 AI 芯片中,由于在计算架构和性能特点上的不同,CPU 适合处理逻辑复杂、顺序性强的串行任务;GPU 是为图形渲染和并行计算设计的处理器,具有大量的计算核心,适合处理大规模并行任务;FPGA 通过集成大量的可重构逻辑单元阵列,可支持硬件架构的重构,从而灵活支持不同的人工智能模型。专用型 AI 芯片是针对面向特定的、具体的、相对单一的人工智能应用专门设计的芯片,其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化,具体实现方法为在架构层面对特定智能算法作硬化支持,可高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务。当前当前 AI 算力芯片以算力芯片以 GPU 为主流,英
10、伟达主导全球为主流,英伟达主导全球 AI 算力芯片市场。算力芯片市场。根据的 IDC 数据,2024 上半年,中国 AI 加速芯片的市场规模达超过 90 万张;从技术角度来看,GPU 卡占据 80%的市场份额。根据相关数据,2022 年英伟达占据全球 AI 芯片市场份额超过 80%,其中英伟达占全球 AI 服务器加速芯片市场份额超过 95%。5/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 二二、算力芯片发展驱动因素及发展现状、算力芯片发展驱动因素及发展现状 1.大模型持续迭代,推动全球算力需求高速成长大模型持续迭代,推动全球算力需求高速成长 ChatGPT
11、 热潮引发全球热潮引发全球科技企业加速迭代科技企业加速迭代 AI 大模型。大模型。ChatGPT 是由美国公司 OpenAI 开发、在 2022年 11 月发布上线的人工智能对话机器人,ChatGPT 标志着自然语言处理和对话 AI 领域的一大步。ChatGPT 上线两个月后月活跃用户数突破 1 亿,是历史上用户增长速度最快的消费级应用程序。ChatGPT 热潮引发全球科技企业加速布局,谷歌、Meta、百度、阿里巴巴、华为、DeepSeek 等科技企业随后相继推出 AI 大模型产品,并持续迭代升级。GPT-4.5 带来更自然的交互体验。2025 年 2 月 27 日,OpenAI 正式发布 A
12、I 大模型 GPT4.5。作为OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,与专注于科学、技术、工程和数学(STEM)领域的其他模型不同,GPT4.5 更全面、更通用。在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%);GPT-4.5 带来更自然、更温暖、更符合人类的交流习惯。GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻
13、觉现象。6/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 OpenAIo3 进一步提升复杂推理能力。2024 年 12 月 20 日,OpenAI 发布全新推理大模型 o3,o3 模型在多个标准测试中的表现均优于 o1,进一步提升复杂推理能力,在一些条件下接近通用人工智能(AGI)。在软件基准测试(SWE-benchVerified)中,o3 的准确率达到了 71.7%,相较 o1 提升超过20%;在编程竞赛(Codeforces)中,o3 的评分达到 2727,接近 OpenAI 顶尖程序员水平;而在数学竞赛(AIME)中,o3 的准确率高达 96.7%,
14、远超 o1 的 83.3%;在博士生级别问题测试集(GPQA)中,o3 达到 87.7 分,远超人类选手的程度;在 ARC-AGI 测试中,o3 首次突破了人类水平的门槛,达到87.5%。大模型持续迭代,推动算力需求高速成长。Scalinglaw 推动大模型持续迭代,根据 EpochAI 的数据,2012-2023 年大模型训练的算力需求增长近亿倍,目前仍然在大模型推动算力需求高速成长的趋势中。2.全球算力发展现状全球算力发展现状(1)北美四大云厂商受益于北美四大云厂商受益于 AI 对核心业务的推动,持续加大资本开支对核心业务的推动,持续加大资本开支 受益于 AI 对于公司核心业务的推动,北美
15、四大云厂商谷歌、微软、Meta、亚马逊 2023 年开始持续加大资本开支,2024 年四季度四大云厂商的资本开支合计为 706 亿美元,同比增长 69%,环比增长 23%。7/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 目前北美四大云厂商的资本开支增长主要用于 AI 基础设施的投资,并从 AI 投资中获得了积极回报,预计 2025 年仍有望继续大幅增加资本开支。(2)国内三大互联网厂商不断提升资本开支,国内智算中心加速建设国内三大互联网厂商不断提升资本开支,国内智算中心加速建设 国内三大互联网厂商阿里巴巴、百度、腾讯 2023 年也开始不断加大资本开支,2
16、024 年四季度三大互联网厂商的资本开支合计为 720 亿元,同比增长 259%,环比增长 99%,预计 2025 年国内三大互联网厂商将继续加大用于 AI 基础设施建设的资本开支。根据相关数据,截至 2024 年 6 月,中国已建和正在建设的智算中心超 250 个;目前各级政府、运营商、互联网企业等积极建设智算中心,以满足国内日益增长的算力需求。(3)人工智能进入算力新时代,全球算力规模高速增长人工智能进入算力新时代,全球算力规模高速增长 随着人工智能的快速发展以及 AI 大模型带来的算力需求爆发,算力已经成为推动数字经济飞速发展的新引擎,人工智能进入算力新时代,全球算力规模呈现高速增长态势
17、。根据 IDC、Gartner、TOP500、8/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 中国信通院的预测,预计全球算力规模将从 2023 年的 1397EFLOPS 增长至 2030 年的 16ZFLOPS,预计 2023-2030 年全球算力规模复合增速达 50%。根据 IDC 的数据,2024 年中国智能算力规模为725.3EFLOPS,预计 2028 年将达到 2781.9EFLOPS,预计 2023-2028 年中国智能算力规模的复合增速为 46.2%。三、三、主流算力芯片之主流算力芯片之 GPU 1.GPU GPU(Graphics Pro
18、cessing Unit,图形处理器)作为现代计算体系的核心组件,其核心原理是将复杂的图形处理任务分解为大量可并行执行的子任务实现高效计算。其技术原理与演进路径深刻反映了半导体行业的发展趋势。GPU 最初专为图形渲染设计,采用大规模并行架构,通过数千个计算核心同时处理大量简单任务,如顶点变换、纹理映射和像素着色等。随着计算需求的升级,GPU 逐渐从专用图形处理器演变为通用计算加速器。GPU 因其并行计算架构在算力领域被广泛用于加速复杂的计算任务。其应用始于 1999 年英伟达推出首款 GPUGeForce256,2006 年 CUDA 框架的诞生使其正式转向通用计算(GPGPU)。从早期的35
19、0nm 到当前的 4nm 工艺。GPU 的功能边界不断拓展,逐步覆盖科学计算、AI 训练、自动驾驶等新兴领域。AI 计算:集成专用 AI 加速单元(如 NVIDIAAmpere 架构的 TensorCore),支持 FP16/INT8 混合精度计算;科学计算:支持双精度浮点运算(FP64),在气象模拟、基因测序等领域广泛应用;自动驾驶:9/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 推出车载计算平台(如 NVIDIADRIVEOrin),算力达 254TOPS,可从 L2+级系统一路升级至 L5 级全自动驾驶汽车系统;元宇宙:开发实时渲染引擎(如 Omni
20、verse),支持大规模虚拟场景构建与交互。为突破传统冯为突破传统冯 诺依曼架构的瓶颈,诺依曼架构的瓶颈,GPU 行业正积极探索下一代计算范式。行业正积极探索下一代计算范式。如存算一体:将计算单元嵌入存储器,减少数据搬运开销;Chiplet 技术:通过多芯片互联实现性能扩展;光子计算:利用光子代替电子进行数据的传输。GPU 的技术演进不仅是性能的提升,更是计算范式的重构。未来,随着 AI、元宇宙、量子计算等新兴技术的崛起,GPU 将继续扮演算力基础设施的核心角色,推动全球数字化进程进入新纪元。2.GPU 市场规模市场规模 生成式 AI 爆发推动 GPU 需求指数级增长,根据相关数据,2024
21、年全球 GPU 芯片市场规模为 812 亿美元,预计 2028 年将增长至 2465 亿美元,2021-2028 年的 CAGR 为 32.8%,GPU 市场呈现出强劲增长态势。(1)大模型百花齐放,引算力需求爆发式增长大模型百花齐放,引算力需求爆发式增长 AI 大模型百花齐放,谷歌、微软、OpenAI、Meta 等国际科技巨头凭借雄厚的资金、技术和人才优势,在大模型领域占据领先地位。GPU 的算力优势与当下算力极度匹配,AI 大模型在训练端和推理端都需要处理海量的数据的复杂的计算,而 GPU 拥有强大的并行计算能力,能够高效处理矩阵运算等计算密集型任务,这正好满足了 AI 大模型对计算能力的
22、需求。为满足大模型训练需求,GPU 的三大核心指标发生质变:1)计算密度:算力芯片需在单位芯片面积下尽可能提升计算能力,从而达到在规定面积下的最大算力;2)内存带宽:由于大模型训练参数呈几何倍数增长,GPU 运行计算数据也相应指数倍增加,因此对于内存带宽与容量有更高要求。H100 芯片所用的 HBM3 带宽速率达到 6.4Gps;3)互联能力:单卡 GPU 已经无法满足大模型需要的算力要求,因此卡间互联能力是另一核心指标,目前 Nivdia 已经凭借 NVlink 推出万卡级集群智算中心。算力需求爆发式增长,算力需求爆发式增长,GPU 需求极具攀升。需求极具攀升。根据中国信息通信研究院报告显示
23、,2022 年全球计算设备算力总规模达到 906EFlops,同比增长 47%,预计未来五年全球算力规模将以超过 50%的速度增长,10/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 到 2025 年全球计算设备算力总规模将超过 3ZFlops。AI 大模型正推动 GPGPU 从“通用加速器”向“智能计算核心”演进。未来三年,具备高算力密度、高内存带宽、高互联效率的 GPU 将成为市场。未来 AI 技术的迭代将推动 GPU 架构向高性能、高能效与高灵活性三维一体的方向演进。随着大模型参数量持续膨胀及多模态任务复杂度提升,下一代 GPU 需在算力密度、内存带宽
24、和异构计算能力上实现突破性升级。硬件层面,先进制程与 Chiplet 封装技术或将不可或缺,通过堆叠式显存和高速互联总线构建超千 GB/s 级数据吞吐通道。计算单元将强化稀疏计算、动态张量核心与光追加速模块,以适配Transformer、扩散模型等主流算法特性。此外,边缘 AI 场景将催生模块化 GPU 设计,通过可拆分计算单元实现云端-边缘算力动态调配,同时集成 NPU/IPU 等协处理器形成异构计算集群。国内国内 GPU 市场规模增长核心驱动力来自两方面:一是人工智能、云计算、数据中心等新兴产业对算力市场规模增长核心驱动力来自两方面:一是人工智能、云计算、数据中心等新兴产业对算力的的爆发式
25、需求;二是国际地缘政治背景下,国产替代成为国家战略级任务。爆发式需求;二是国际地缘政治背景下,国产替代成为国家战略级任务。中商产业研究院发布的2024-2029 年中国 GPU 行业市场现状调研及发展趋势预测研究报告显示,2023 年中国 GPU 市场规模为 807 亿元,较上年增长 32.78%。中商产业研究院分析师预测,2024 年中国 GPU 市场规模将增至 1073 亿元。从需求端看,人工智能大模型训练与推理、智能驾驶、工业仿真、元宇宙等新兴场景推动 GPU 需求结构从传统图形渲染向通用计算加速转变。以 AI 为例,单一大模型训练需消耗上万颗高端GPU,而国内互联网巨头、科研机构及智算
26、中心的算力缺口持续扩大,直接拉动高性能 GPU 采购需求。政策层面,国家“十四五”规划明确将集成电路列为战略性新兴产业,地方政府通过产业基金、税收优惠等方式扶持本土 GPU 企业,加速构建自主可控的算力底座。(2)信创产业快速崛起,带动信创产业快速崛起,带动 GPU 需求提升需求提升 随着“2+8+N”战略落地,我国数字化经济规模不断扩大。根据中国信通院数据显示,2022 年中国数字经济总体规模达 50.2 万亿元,2025 年有望达 70.8 万亿元。得益于中国数字化进程的持续深入,艾瑞咨询预测,未来十年中国信创产业仍将保持 30%的年均增长,2026 年突破 2000 亿元规模大关。11/
27、36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 (3)游戏与图形渲染对游戏与图形渲染对 GPU 需求稳定增长需求稳定增长 图形 GPU(Graphics Processing Unit)作为计算机图形处理的核心硬件,在游戏、影视动画、工业设计、虚拟现实(VR)等领域扮演关键角色。Jon Peddie Research(JPR)发布的最新 GPU 市场数据统计报告,显示 2023 年第四季度独立显卡单位出货量从 890 万块增至 950 万块,环比增长了 6.8%,从2000 年第一季度起至今独立显卡总出货量为 23 亿块,总价值达到了 4820 亿美元。中国市
28、场受益于电竞产业扩张、3A 游戏本地化及数字内容创作需求激增,成为全球增速最快的市场之一。根据 Statista 数据显示,全球电子游戏市场收入从 2017 年的 1,296 亿美元提升到 2023 年的 4,062 亿元,2024 年的市场收入预计将达到 4,552.8 亿美元,到 2029 年预计达到 6666.8 亿美元。3.GPU 竞争格局:竞争格局:国际巨头的垄断和国产新势力的破局国际巨头的垄断和国产新势力的破局 当下全球 GPU 市场呈现高度集中化特征,相关最新数据显示,2024 年 Q3 全球独立 GPU 市场份额英伟达和 AMD 分别占据了 90%、10%。12/36 2025
29、 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 海外市场方面,海外市场方面,英伟达凭借技术架构优势与 CUDA 生态的优势,始终占据了 GPU 市场超过 80%的份额。AMD 也凭借其技术差异化,双架构计算卡 CDNA 系列与游戏卡 RDNA 系列并行优势,占据一定的市场份额。两大巨头在 GPU 领域的竞争已超越单纯硬件性能比拼,进入“制程工艺+软件生态+全栈服务”的立体化战争阶段。英伟达凭借 CUDA 生态持续收割 AI 红利,AMD 以开放策略蚕食性价比市场,英特尔则依托 IDM 模式谋求弯道超车。国内国内 GPU 市场呈现市场呈现“国际巨头主导、本土企业追赶国际巨头主
30、导、本土企业追赶”的格局。的格局。传统企业如景嘉微,海光信息,产品聚焦图形渲染与通用计算,已实现规模化商用;新兴创业公司包括壁仞科技,摩尔线程,主打高性能计算GPU,部分产品算力接近国际主流水平。13/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 技术路径上,国内企业多采用 IP 授权与自研架构结合的模式。例如,芯动科技“风华”系列基于Imagination 授权架构,而壁仞科技则选择自研架构突破 CUDA 生态壁垒。制程方面,受限于半导体设备进口限制,国产 GPU 在工艺上与国际领先的制程存在代差,但通过 Chiplet(芯粒)等先进封装技术部分弥补性能短
31、板。然而,生态建设仍是最大瓶颈。英伟达 CUDA 生态拥有超 400 万开发者,而国产GPU 厂商需构建从编译器、驱动到应用框架的完整软件栈。华为推出 CANN 异构计算架构,摩尔线程联合多家企业成立“GPU 开源生态联盟”,但短期内难以打破用户习惯壁垒。此外,国内 EDA 工具、高性能存储等配套产业链尚不完善,进一步制约产品迭代速度。四、四、AI 算力芯片之算力芯片之定制定制芯片芯片 ASIC 1.ASIC AI ASIC 是一种专为人工智能应用设计的定制集成电路,具有高性能、低功耗、定制化、低成本等特是一种专为人工智能应用设计的定制集成电路,具有高性能、低功耗、定制化、低成本等特点。点。与
32、通用处理器相比,AI ASIC 针对特定的 AI 任务和算法进行了优化,如深度学习中的矩阵乘法、卷积等运算,能在短时间内完成大量计算任务,提供高吞吐量和低延迟,满足 AI 应用对实时性的要求;AIASIC 通过优化电路设计和采用先进的工艺技术,在处理 AI 工作负载时具有较高的能效比,适合大规模数据中心等对能耗敏感的场景;虽然前期研发和设计成本较高,在大规模部署时,ASIC 的单位计算成本通常低于通用处理器。2.ASIC 与与 GPU AI ASIC 与与 GPU 在在 AI 计算任务中各有优势和劣势。计算任务中各有优势和劣势。在算力上,先进 GPU 比 ASIC 有明显的优势;ASIC 针对
33、特定任务优化,通常能提供更高的计算效率,ASIC 在矩阵乘法、卷积运算等特定 AI 任务上性能可能优于 GPU;GPU 通用性强,能够运行各种不同类型的算法和模型,ASIC 功能固定,难以修改和扩展,灵活性较差;ASIC 针对特定任务优化,功耗显著低于 GPU;GPU 研发和制造成本较高,硬件成本是大规模部署的重要制约因素,ASIC 在大规模量产时单位成本相对较低。14/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 GPU 软件生态成熟且丰富,软件生态成熟且丰富,AI ASIC 推动软件生态走向多元化。推动软件生态走向多元化。ASIC 的软件生态缺乏通用性,
34、主要是对特定应用场景和算法进行优化;由于 ASIC 的开发工具和软件库资源相对较少,编程难度比 GPU 大,开发者在使用 ASIC 进行开发和调试时所需要花费时间会更多。GPU 的软件生态成熟且丰富,如英伟达CUDA 和 AMDROCm 等,提供了广泛的开发工具、编程语言支持,并拥有大量的开源项目和社区资源。为了提升 AIASIC 在特定场景下的计算效率,谷歌、亚马逊、META、微软等厂商为 ASIC 开发了配套的全栈软件生态,包括编译器、底层中间件等,持续降低从 CUDA 生态向其他生态转换的迁移成本,以减轻对 CUDA 生态的依赖性。3.大厂自研芯片趋势明显,推动定制大厂自研芯片趋势明显,
35、推动定制 ASIC 芯片市场芯片市场高增高增 由于全球头部云厂商、互联网厂商等对 AI 算力芯片需求量巨大,英伟达垄断全球数据中心 GPU 市场,因成本、差异化竞争、创新性、供应链多元化等原因,越来越多地大厂开始设计自有品牌的芯片,大厂 15/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 自研芯片趋势明显;云厂商等大力投入自研 AI ASIC,推动数据中心定制 ASIC 芯片市场高速增长,预计增速快于通用 AI 算力芯片。根据 Marvell 的数据,2023 年数据中心 AI 算力芯片市场规模约为 420亿美元,其中定制 ASIC 芯片占比 16%,市场规
36、模约为 66 亿美元;预计 2028 年数据中心定制 ASIC 芯片市场规模将达到 429 亿美元,市场份额约为 25%,2023-2028 年复合增速将达到 45%;预计 2028年数据中心 AI 算力芯片市场规模将达约 1720 亿美元,2023-2028 年复合增速约为 32%。4.ASIC 竞争格局竞争格局 云厂商自研 AI ASIC 芯片时,通常会与芯片设计厂商合作,然后再由台积电等晶圆代工厂进行芯片制造,目前全球定制 AI ASIC 市场竞争格局以博通、Marvell 等厂商为主。博通为全球定制博通为全球定制 AIASIC 市场领导市场领导厂商,厂商,已经为大客户实现 AI ASI
37、C 大规模量产。博通在多年的发展中已经积累了大量的成体系的高性能计算/互连 IP 核及相关技术,除了传统的 CPU/DSPIP 核外,博通还具有交换、互连接口、存储接口等关键 IP 核;这些成体系的 IP 核可以帮助博通降低 ASIC 产品成本和研发周期,以及降低不同 IP 核联合使用的设计风险,并建立博通强大的竞争优势。博通 2024 财年 AI 收入达到 120 亿美元,公司 CEO 表示,到 2027 年,公司在 AI 芯片和网络组件的市场规模将达到 600 亿到 900 亿美元。谷歌谷歌 TPU:谷歌 TPU(Tensor Processing Unit)即张量处理单元,是谷歌专为加速
38、机器学习任务设计的定制 ASIC 芯片,主要用于深度学习的训练和推理。TPU 基本上是专门用于矩阵乘法的计算核心,并与高带宽内存(HBM)连接;TPU 的基本组件包括矩阵乘法单元(MXU)、矢量单元(VPU)和矢量内存(VMEM);矩阵乘法单元是 Tensor Core 的核心,矢量处理单元执行一般数学运算,矢量内存是位于Tensor Core 中靠近计算单元的片上暂存器;TPU 在进行矩阵乘法方面速度非常快。16/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 目前谷歌 TPU 已经迭代至第六代产品,每代产品相较于上一代在芯片架构及性能上均有一定的提升。20
39、15 年谷歌 TPUv1 推出,主要用于推理任务。2024 年谷歌发布第六代产品 TPUv6Trillium,是目前性能最强、能效最高的 TPU。TPUv6Trillium 与上一代 TPUv5e 相比,单芯片峰值计算性能提高了 4.7 倍,HBM 容量和带宽均增加一倍,同时芯片间互连带宽也增加一倍;TPUv6Trillium 在性能提升的同时,能源效率比上一代提高了 67%,显著降低了运营成本;TPUv6Trillium 被用于训练谷歌的 Gemini2.0 等AI 大模型。谷歌 TPU 迭代推动大模型训练与推理效率大幅提升。Gemini 等 AI 大模型性能强大且复杂,拥有数十亿个参数,训
40、练如此密集的大模型需要巨大的计算能力以及共同设计的软件优化。与上一代 TPUv5e 相比,TPUv6Trillium 为 Llama-2-70b 和 gpt3-175b 等大模型提供了高达 4 倍的训练速度。TPUv6Trillium 为推理工作负载提供了重大改进,为图像扩散和大模型提供了最好的 TPU 推理性能,从而实现了更快、更高效的 AI 模型部署;与 TPUv5e 相比,TPUv6Trillium 的 Stable Diffusion XL 离线推理相对吞吐量(每秒图像数)高出 3.1 倍,服务器推理相对吞吐量高出 2.9 倍。17/36 2025 年年 4 月月 14 日日 行业行业
41、|深度深度|研究报告研究报告 谷歌已建立 100000TPU 芯片算力集群。TPU 芯片通过 ICI 连接成算力集群,TPU 网络可以连接16x16x16TPUv4 和 16x20 x28TPUv5p。为了满足日益增长的 AI 计算需求,谷歌已将超过 100000 个TPUv6Trillium 芯片连接到一个网络结构中,构建了世界上最强大的 AI 超级计算机之一;该系统将超过 100000 个 TPUv6Trillium 芯片与每秒 13PB 带宽的 Jupiter 网络结构相结合,使单个分布式训练作业能够扩展到数十万个加速器上。这种大规模芯片集群可以提供强大的计算能力,实现高效的并行计算,从
42、而加速大模型的训练过程,提高人工智能系统的性能和效率。五、五、AI 算力芯片算力芯片产业链产业链 1.产业链构成产业链构成 AI 算力芯片产业链包括人工智能算法、芯片设计、芯片制造及下游应用环节。人工智能芯片产业链上游主要是人工智能算法以及芯片设计工具,人工智能算法覆盖广泛,包括视觉算法、语音处理算法、自然语言处理算法以及各类机器学习方法(如深度学习等)。AI 算力芯片行业的核心为芯片设计和芯片制造,芯片设计工具厂商、晶圆代工厂商与封装测试厂商为 AI 算力芯片提供了研发工具和产业支撑。AI 算力芯片行业的下游应用场景主要包括云计算与数据中心、边缘计算、消费类电子、智能制造、智能驾驶、智慧金融
43、、智能教育等领域。18/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 2.下游下游应用领域应用领域 当下 AI 应用与各个领域相结合,千行百业加速落地 AI。AI+医疗:医疗:基于迭代优化的大模型技术,讯飞医疗全面升级医疗诊后康复管理平台,可为患者智能生成个性化康复计划,并督促患者按计划执行。讯飞诊后康复管理平台还可以通过外呼机器人和小程序、APP 为康复过程中病患提供及时应答,回复开放性和交叉性的问题。AI+金融:金融:在信贷领域,由于征信数据的复杂性和多样性很难使用传统的数据处理方式进行分析。度小满智能征信中台将大型语言模型 LLM、图算法应用在征信报告
44、的解读上,能够将报告解读出 40 万维的风险变量,将银行风控模型的风险区分度提升了 26%。AI+工业:工业:在星火认知大模型的基础上,羚羊平台推出了工业大模型“羚机一动”。中小企业在羚羊平台上自由发布需求,羚机一动针对企业需求给出专业化建议策略,智能匹配方案、服务商、专家等资源。同时还可在企业内部知识库和工业知识库之上构建企业知识大脑,在研发、生产、服务营销各个环节上,精准地定位问题、得到有效解决方案。AI+办公:办公:在软件领域,人工智能大模型逐步应用于自然语言处理、计算机视觉、语音识别等领域,相关软件产品的智能化水平得到提升。2023 年 4 月,WPSAI 对外亮相,并陆续应用于文字、
45、表格、演示文稿等常用办公组件。除了文本生成等功能外,WPSAI 可以通过自然对话的人机交互生成复杂的函数公式,进一步降低办公软件的操作门槛。2023 年 11 月,WPSAI 公测发布,正式对用户开放使用。19/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 随着 AI 应用场景的逐步落地,算力需求激增。IDC 预测,未来市场需求量也将会实现大幅度上升,2027 年中国 AI 服务器市场规模将达到 134 亿美元,五年 CAGR 为 21.8%。在算力芯片需求急速增长的趋势下,国产算力芯片有望迎来广阔的市场需求空间。六、六、AI 算力芯片国产替代情况算力芯片国
46、产替代情况 1.美国对高端美国对高端算力芯片算力芯片供应限制不断趋严,国供应限制不断趋严,国内内厂商迎来黄金发展期厂商迎来黄金发展期 美国商务部在 2022、2023、2025 年连续对高端 AI 算力芯片进行出口管制,不断加大英伟达及 AMD高端 GPU 芯片供应限制,国产 AI 算力芯片厂商迎来黄金发展机遇,但国产厂商华为海思、寒武纪、海光信息、壁仞科技和摩尔线程等进入出口管制“实体清单”,晶圆代工产能供应受限,影响国产 AI 算力芯片发展速度。20/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 2.国产厂商不断追赶海外龙头厂商,但在硬件性能上仍有国产厂
47、商不断追赶海外龙头厂商,但在硬件性能上仍有差距差距 随着 AI 应用计算量的不断增加,要实现 AI 算力的持续大幅增长,既要单卡性能提升,又要多卡组合。从 AI 算力芯片硬件来看,单个芯片硬件性能及卡间互联性能是评估 AI 算力芯片产品水平的核心指标。国产厂商在芯片微架构、制程等方面不断追赶海外龙头厂商,产品性能逐步提升,但与全球领先水平仍有 1-2 代的差距。3.AI 算力芯片生态壁垒极高,国产领先厂商有望算力芯片生态壁垒极高,国产领先厂商有望突破突破 在软件生态方面,英伟达经过十几年的积累,其 CUDA 生态建立极高的竞争壁垒,国产厂商通过兼容CUDA 及自建生态两条路径发展,国内领先厂商
48、华为昇腾、寒武纪等未来有望在生态上取得突破。华为基于昇腾系列 AI 芯片,通过模组、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景 AI 基础设施方案。昇腾计算是基于硬件和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,包括昇腾系列 AI 芯片、系列硬件、CANN(异构计算架构)、Al 计算框架、应用使能、21/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 开发工具链、管理运维工具、行业应用及服务等全产业链。昇腾计算已建立基于昇腾计算技术与产品、各种合作伙伴,为千行百业赋能的生态体系。七、七、AI 算力芯片相关公司算力芯片相
49、关公司 1.海光信息海光信息 海光信息成立于 2014 年,2016 年获得 AMD 技术授权启动 CPU 产品研发,通过持续推进高端处理器产品的迭代升级,成长为国内成长为国内 CPU 和和 DCU 双领军企业。双领军企业。2014 年海光信息成立,成立后不久,公司获得中科曙光、国科控股等参投的天使轮融资。2016 年,公司与 AMD 合资成立海光集成和海光微电子两家子公司,并分别于 2016 年和 2017 年与 AMD 签署技术许可协议,约定 AMD 为两家合资公司提供高端处理器技术授权和技术支持,包括处理器核心和外围电路设计技术以及内置到处理器中驱动处理器硬件执行的微码系统等。基于 AM
50、D 的授权技术和海光的自研能力,2016 年以来公司秉承“销售一代、验证一代、研发一代”的策略,持续进行海光系列 CPU 和深算系列 DCU 产品的迭代,目前公司已发展成为国内 CPU 和 DCU 领域的领导者。海光信息的主营产品分为通用处理器(海光信息的主营产品分为通用处理器(CPU)和协处理器()和协处理器(DCU)两类。)两类。其中:1)海光 CPU 兼容国际主流的 x86 技术路线,具有丰富的软硬件生态优势,其核心组成包括处理器核心(Core)、片上网络 22/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 和各类接口控制器,同时集成了复杂的微码系统。
51、海光 CPU 按照代际进行升级迭代,目前已从海光一号迭代至海光四号,而每代际产品基于不同的产品定位,可细分为高端的 7000、中端的 5000 和低端的 3000 系列,其中 7000 系列面向对计算能力、扩展能力、吞吐量有高要求的领域,包括大数据、人工智能等,3000 系列主要应用于入门级服务器、工作站、工业控制等市场,5000 系列面向边缘计算、云计算、分布式存储等应用场景。2)海光 DCU 属于 GPGPU 的一种,采用“类 CUDA”通用并行计算架构,能够较好地适配国际主流商业计算软件和人工智能软件。从组成上看,计算单元是 DCU 的最主要部件,以深算一号为例,其最大集成 64 个计算
52、单元。目前公司 DCU 产品包括深算一号和深算二号,主要部署在服务器集群或数据中心,支撑高复杂度和高吞吐量的数据处理任务。CPU 性能和生态持续领跑国内市场,信创加速推动国产化率持续提升。性能和生态持续领跑国内市场,信创加速推动国产化率持续提升。公司基于 AMDZen1 架构授权,初代产品海光一号较同期的国产 CPU 实现代际领先,且主力产品海光三号性能较前代产品全方位提升,综合产品性能持续领跑国内市场。同时在生态方面,公司 CPU 采用 x86 架构,相比于 ARM 和自研指令集架构,生态成熟度更高,可实现上层系统软件、应用软件等的无缝切换。目前国内服务器及桌面CPU 市场合计达千亿规模,国
53、产化替代空间广阔。随着财政对信创的支持力度不断加强以及行业信创临近中期节点,两大因素有望共同推动行业信创加速,同时 CPU 作为信创关键领域,国产化率有望实现快速提升。AI 芯片跻身国内第一梯队,充分受益国产芯片跻身国内第一梯队,充分受益国产 AI 算力产业浪潮。算力产业浪潮。公司 DCU 芯片深算一号和深算二号过去主要应用于超算中心等高性能计算领域,是国内超算芯片领域领导者。为补齐 DCU 在大模型训练和推理场景下的短板,公司正在研发最新一代 DCU 产品深算三号,预计较深算二号在 AI 性能上将有数倍提升,并有望跻身国内 AI 芯片第一梯队。公司 DCU 采用 GPGPU 架构,并且软件平
54、台 DTK 高度兼容CUDA 生态,能够广泛适配国际主流 AI 框架和应用软件,同时大量采用国际主流开源组件,降低生态拓展难度。随着国内互联网及智算中心 AI 算力投入的持续增加,叠加美国芯片出口管制政策持续加码,公司有望充分受益 AI 算力的国产化浪潮。23/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 不同于华为昇腾、摩尔线程等厂商自行开发软件库、框架兼容程序等,海光充分利用开源社区,大量采用国际主流开源方案,较大程度上降低了生态拓展难度。海光 DTK 软件平台中 MIOpen、Eigen、RCCL 等软件库均来自于开源社区,且均为目前使用较广泛的方案,
55、一方面能够降低软件开发工作量,提升用户吸引力,另一方面也方便用户进行二次开发,从而提升用户体验。2.龙芯中科龙芯中科 公司主营处理器及配套芯片、基础软硬件解决方案,业务崭新突破开创未来。为解决中国信息产业“缺芯少魂”的问题,公司通过十余年的自主研发和市场化运作,在处理器研发、基础软件研发、生态体系建设等方面已具备充足的技术和经验积累的条件下,于 20 年推出了自主指令系统 LoongArch(龙芯架构)。此前,公司的产品主要基于 MIPS 指令系统,公司于 20 年推出的 LoongArch 自主指令系统,该架构具有自主知识产权、技术先进、兼容生态等特点。其融合了 X86 和 ARM 等主流指
56、令系统的特点,经过高效二进制翻译,可以实现对 X86、ARM 应用软件的兼容。24/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 2025 年 2 月 7 日,龙芯中科宣布推出搭载龙芯 3 号 CPU 的设备成功启动运行 DeepSeek-R17B 模型。2月 23 日,龙芯中科发布基于龙芯中科发布基于 DeepSeek 大模型的软硬全栈推理一体机,产品实现从芯片、系统到框架大模型的软硬全栈推理一体机,产品实现从芯片、系统到框架的全栈国产化支持。的全栈国产化支持。与此同时,北京市 2025 年终端设备集中带量采购项目需求公示公告发布,本次共采购 21180
57、台信创终端设备,龙芯 loongArch 占比 63%。大模型:全栈自主技术,国产芯片与大模型:全栈自主技术,国产芯片与 AI 大模型协同突破。大模型协同突破。龙芯中科基于自主 LoongArch 架构的3A6000/3C6000 系列处理器,成功实现 DeepSeekR17B 大模型的本地化部署,仅用 2 小时即完成与太初元碁 T100 加速卡的适配,可提供更快、更强、更省的训练推理体验。与此同时,采用龙芯 3A6000处理器的诚迈信创电脑和望龙电脑已实现 DeepSeek 本地部署,此后无需依赖云端服务器,避免了因网络波动或服务器过载导致的服务中断,可高效完成文档处理、数据分析、内容创作等
58、多项工作,显著提升工作效率。当前,国产芯片与 AI 大模型的协同适配取得实质性进展,为构建自主可控的人工智能技术生态奠定基础。一体机:龙芯一体机:龙芯 DeepSeek 推理一体机发布,政企推理一体机发布,政企 AI 部署迈入安全可控新阶段。龙部署迈入安全可控新阶段。龙芯 DeepSeek 软硬全栈推理一体机可搭载 2 颗龙芯 3C5000 处理器,支持最多 4 张太初元碁 T100 加速卡;支持 DeepSeek全系(7B/8B/14B/32B/70B)模型,用户可以根据实际应用场景和性能要求,进行灵活的一体机配置调整;通过自研以及引入第三方,支持实现常见 AI 智能体应用,例如代码编写插件
59、、文档生成工具、会议质检、智能政务、智慧审批、金融数据分析、合规审查、企业客服、办公助手、企业内部知识咨询等 AI 智能体,满足教育、政务、企业、金融等各领域业务场景需求。龙芯中科正与太初元碁、寒武纪、天数智芯、算能科技、openEuler 等合作伙伴,实现从芯片、系统到框架的全栈国产化支持,彻底摆脱对国外技术的依赖,政企 AI 部署迈入安全可控新阶段。3.纳芯微纳芯微 十年磨剑铸就传感器、信号链、电源管理三大产品线。十年磨剑铸就传感器、信号链、电源管理三大产品线。自 2013 年成立以来,公司专注于围绕下游应用场景组织产品开发,聚焦传感器、信号链和电源管理三大产品方向,提供丰富的半导体产品及
60、解决方案,广泛应用于汽车、泛能源及消费电子领域,截至 2024 年中报,公司已能提供 2100 余款可销售产品型号。公司历史沿革分为以下三阶段:25/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 1)初创期:)初创期:2013-2015 年,专注于消费电子和信号感知。2013 年推出三轴加速度传感器信号调理 ASIC芯片,并于 2014 年推出压力传感器信号调理 ASIC 芯片和电流传感器信号调理 ASIC 芯片,2015 年发布首款压力传感器信号调理 ASIC 芯片。2015 年底之前,公司产品主要为应用于消费电子领域的传感器信号调理 ASIC 芯片。2)
61、拓展期:)拓展期:2016-2017 年,进军工业及汽车。2016 年,公司开始向工业及汽车领域发展,同年推出面向工业控制领域以及汽车前装市场的压力传感器信号调理 ASIC 芯片(AEC-Q100 标准)。同年也推出了硅麦克风和红外传感器信号调理 ASIC 芯片,进一步扩充产品品类。为扩展在汽车中高压压力传感器的应用,公司入股襄阳臻芯,襄阳臻芯是一家陶瓷电容压力传感器敏感元件生产商,公司 2017 年与之合作推出面向中高压压力传感器市场的陶瓷电容压力传感器核心器件级解决方案。3)快速上升期:)快速上升期:2018-至今,积极拓展品类,逐步形成现今三大产品线。2018 年以来,公司积极扩展产品品
62、类,三大产品线不断丰富。2018 年推出了标准数字隔离芯片与隔离接口芯片,2020 年成功推出集成电源的数字隔离芯片、隔离驱动芯片以及隔离采样芯片,2021 年全品类车规隔离产品量产、发布并量产首款霍尔电流传感器,2022 年发布汽车马达驱动和汽车电源芯片,2023 年发布车用小电机驱动SOC。重新分类后,公司产品主要分为传感器、信号链和电源管理三大产品线,主要应用于汽车电子、泛能源和消费电子。26/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 汽车电子产品持续放量,公司营收成长性强。根据公告,2024 年公司营收增长主要系 1)汽车电子领域相关产品持续放量
63、;2)消费电子领域景气度持续改善;3)泛能源领域的工业自动化和数字电源领域大部分客户恢复正常需求。2024 年 11 月,纳芯微联合芯弦推出 NS800RT 系列实时控制 MCU,从中端市场入手,为未来进入高端市场打通客户渠道。受益于汽车智能化及国产化拉动,汽车整体需求及车规国产芯片需求有望持续提升,公司已切入主要汽车客户,在拓展份额方面具备先发优势。4.寒武纪寒武纪 专注人工智能芯片产品研发,提供行业场景算力底座。专注人工智能芯片产品研发,提供行业场景算力底座。寒武纪成立于 2016 年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,让机器更好地理解和服务人
64、类。寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。寒武纪产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力,推动人工智能赋能产业升级。27/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 芯片产品为公司核心业务支撑,以思元芯片产品为公司核心业务支撑,以思元 370 芯片为例:芯片为例:基于 7nm 制程工艺,思元 370 是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,集成了 390 亿个晶体管,最大算力高达 256TOPS(I
65、NT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370 也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link多芯互联技术,在分布式训练或推理任务中为多颗思元 370 芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。28/36 2025 年年 4 月月 14 日日 行业行业
66、|深度深度|研究报告研究报告 厚积薄发,打造人工智能产业核心引擎。厚积薄发,打造人工智能产业核心引擎。寒武纪作为中国智能芯片领域的标杆企业,专注于人工智能芯片的研发与技术创新,产品矩阵覆盖云、边缘和终端三大场景,逐步构建出完整的生态体系。公司股权结构稳定,核心管理层具备深厚的行业经验,同时通过激励机制保障团队活力,展现出对市场拓展和业务规模增长的信心。2024 年公司预计实现营业收入 10.7-12.0 亿元,同比增长 50.8%到 69.2%。国产算力腾飞在即,寒武纪迎来黄金发展期。国产算力腾飞在即,寒武纪迎来黄金发展期。在政府政策支持和企业需求激增的双重推动下,国产算力市场空间广阔。202
67、5 年或将成为政府和运营商算力采购的大年,六部门定调到 25 年建设 105EFlops 智能算力,中国移动计划 24-25 年采购 AI 服务器 7994 台。互联网企业,特别是字节跳动等公司,在资本开支和 AI 推理需求上持续加码,这为国产算力厂商提供了历史性机遇。字节 CapEx 自 24 年 800 亿元飙升至 25 年 1600 亿元,对比北美云厂商 24 年平均 CapEx 约合 3800 亿人民币左右。我们预计国内云厂商 CapEx 上升空间依然广阔,有望带动算力芯片需求增长。寒武纪凭借技术优势和产品布局,有望在新一轮增长周期中获得显著市场份额。智算未来先锋,寒武纪引领国产算力新
68、格局。智算未来先锋,寒武纪引领国产算力新格局。寒武纪在技术路径上采取通用型智能芯片的开发路线,兼具高性能和低功耗,适配多场景应用,与国内外竞争者相比具备显著优势。具体体现在 1)“领跑者“计划推动数据中心算力国产替代;2)公司通过不断推出高性能芯片,强化产品迭代能力,进一步巩固其在国产算力领域的领先地位;3)差异化设计架构,凭借多样化运算的高效适配能力,与 GoogleTPU 对比各有千秋。5.复旦微复旦微电电 公司 FPGA 产品线技术领先,目前已可提供千万门级、亿门级和十亿门级 FPGA 产品和 PSoC 产品,具备全流程自主知识产权 FPGA 配套 EDA 工具 ProciseTM,以及
69、面向人工智能应用的融合现场可编程(FPGA)和人工智能(AI)的可重构芯片(FPAI)。目前该产品线正在推进基于 1xnmFinFET 先进制程的新一代 FPGA 和 PSoC 产品,新一代 FPGA 产品完成样片测试,已针对部分导入客户小批量销售,并同步开展良率提升工作,产品谱系化工作也正在推进。存储产线协同发展,上半年销量大幅增长存储产线协同发展,上半年销量大幅增长。公司已形成 EEPROM、NORFlash、NANDFlash 三大产品线,建立了完整的利基非挥发存储器产品架构,拥有包括 FLOTOX、ETOX、SONOS 等多种技术平台的研发储备。经过 2023 年的调整,2024 年上
70、半年由于终端及渠道库存消化,存储产品逐步回暖。公司存储产品线受益于行业变化,销量有较大增长,消费及工业级 SPINAND、NOR 产品线价格止跌回升。目前阶段,存储产品的价格比较稳定。公司丰富的存储器产品线,与 FPGA、MCU、安全与识别等产品线相结合,产品满足商用、高工规和车规等客户需求,为工控仪表、医疗、通讯、汽车、消费电子等应用领域提供一站式解决方案。6.紫光国微紫光国微 紫光国微是国内领先的综合性集成电路芯片产品和解决方案提供商。紫光国微是国内领先的综合性集成电路芯片产品和解决方案提供商。紫光国微聚焦特种集成电路、智能安全芯片两大主业,并涵盖石英晶体频率器件、功率半导体等重要业务,以
71、芯片、系统解决方案赋能千行百业,产品深度布局移动通信、金融、政务、汽车、工业、物联网等领域,为数字经济高质量发展提供坚实的基础支撑。公司在研发能力、核心技术、供应链和客户资源等方面竞争优势明显,于 2021 年入选工信部第三批专精特新“小巨人”企业名单。29/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 根据 Wind 数据,新紫光集团通过其全资孙公司紫光春华持有紫光国微 26.0%股权,为上市公司控股股东。2022 年紫光集团完成重整后,“智路建广联合体”(即北京智广芯控股)成为紫光集团的重整战略投资人。目前由新紫光集团董事、联席总裁陈杰任紫光国微董事长。
72、特种业务持续产品研发。特种业务持续产品研发。24 年公司特种集成电路业务受市场下游需求不足影响,面临部分产品价格下降和去库存压力,仍坚持技术创新,在特种 FPGA、特种存储器、AI 智能芯片及模拟领域均保持市场领先地位。新一代更高性能 FPGA 产品推广进展顺利,已取得多家核心客户订单。新开发的特种新型存储器已向用户供货,HBM 存储芯片已处于样品系统集成验证阶段;新研发的交换芯片已开始批量供货,并累计完成十余系列研发工作。以特种 SoPC 平台产品为代表的四代系统级芯片、RF-SOC 产品、通用MCU 整体推进情况良好,均已获用户订单。图像 AI 智能芯片、数字信号处理器 DSP 已完成研发
73、并在推广中实现用户选用;中高端 MCU、视频芯片等领域的产品研制进展顺利。模拟产品领域,公司完成了高性能射频时钟、多通道开关电源、高性能运算放大器、以太网 PHY、大功率片上隔离电源的设计并流片成功,并推出了射频采样收发器、超高速射频 ADC、超低噪声线性电源以及功率监控电路等产品。汽车电子等领域全面布局,提供新动能。24 年公司智能安全芯片业务总体保持平稳,持续完善以信息安全和功能安全为基础,逐步覆盖周边配套产品的汽车电子业务布局,打造了汽车控制芯片、汽车安全芯片、功率器件等产品。紫光同芯发布了国内首颗通过 ASILD 产品认证的 R52+内核车规 MCUTHA6系列产品,其中 THA620
74、6 在产品安全性、可靠性、算力、实用性方面全面对标国际大厂,多家主机厂和 Tier1 正基于该芯片进行开发测试;高端旗舰级产品 THA6412 适应动力底盘域控场景需求,特别是多合一电驱控制器、发动机、底盘域控、区域控制等应用。7.景嘉微景嘉微 30/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 景嘉微成立于 2006 年 4 月,作为国内首家实现图形处理器芯片(GPU)产业化应用的上市企业,公司构建了从架构设计、算法优化到芯片量产的全栈式技术能力。深耕专用领域十八载,已形成覆盖图形显控、小型专用化雷达、GPU 芯片三大业务板块的立体化布局,2023 年研发
75、投入占营业收入比重为46.44%,获得专利授权 142 项(其中国家发明专利 107 项),构筑了深厚的核心技术壁垒。公司凭借深厚的技术积淀与领先优势在国内图形处理芯片研发领域处于领先地位。主营三大业务板块:图形显主营三大业务板块:图形显控领域、小型专用化雷达、控领域、小型专用化雷达、GPU 芯片业务。芯片业务。图形显控领域产品是公司的主要营收来源,始终占公司总营收 45%以上。GPU 芯片近年来占比逐渐增加,2023 年营收占比 14%。GPU 芯片业务是公司的主要发力点,目前产品主要为 JM5 系列,JM7 系列与 JM9 系列,公司最新一代 JM11 系列芯片已经完成流片、封装以及初步测
76、试阶段,根据公司公布测试结果来看,JM11 系列可以满足各种云端应用场景,同时可广泛应用于服务器、图形工作站、台式机以及笔记本等设备。积极导入民用市场,定增布局高性能积极导入民用市场,定增布局高性能 GPU 芯片打造第二曲线芯片打造第二曲线。公司近年来大力研发且向市场积极推广,成功打开并拓宽了民用市场空间,同时在高性能 GPU 领域定增投入打造第二成长曲线。7 系列与 9 系列GPU 芯片在信创行业广泛落地,应用领域涵盖游戏、媒体处理、地理信息系统、CAD 设计辅助等多种使用场景。公司积极与国内厂商建立合作,与包括龙芯、飞腾、银河麒麟等国内主要的 CPU 厂商和操作系统厂商展开适配工作,并与十
77、余家国内主要计算机整机厂商建立合作关系,共建国产化计算机应用生态。同时,公司重点布局高性能 GPU 与通用 GPU,打造第二成长曲线。31/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 八、八、未来展望:未来展望:DeepSeek 有望推动国产有望推动国产 AI 算力芯片加速算力芯片加速发展发展 以 ChatGPT 为代表的生成式 AI 大模型在训练和推理方面对 GPU 等算力芯片的性能有一定高程度的要求,这让在性能方面落后的国产 GPU 芯片难以入局,然而 DeepSeek 的问世改变了 GPU 芯片市场的格局。GPT-4 的训练成本超过 1 亿美元,使用
78、成本百万 token 输入 2.5 美元,百万 token 输出 10 美元。而DeepSeek-V3 的训练成本仅为 557.6 万美元,DeepSeek-V3 的 API 服务定价为每百万输入 tokens0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 价格为 8 元。1.DeepSeek 通过技术创新实现大模型训练极高的性价比通过技术创新实现大模型训练极高的性价比 2024 年 12 月 26 日,DeepSeek 正式发布全新系列模型 DeepSeek-V3,DeepSeek-V3 为自研 MoE 模型,总参数量为 671B,每个 token 激活 37B 参数
79、,在 14.8Ttoken 上进行了预训练。DeepSeek-V3 在性能上对标 OpenAIGPT-4o 模型,并在成本上优势巨大,实现极高的性价比。DeepSeekV3 的技术创新主要体现在采用混合专家(MoE)架构,动态选择最合适的子模型来处理输入数据,以降低计算量;引入多头潜在注意力机制(MLA)降低内存占用和计算成本,同时保持高性能;采用 FP8 混合精度训练降低算力资源消耗,同时保持模型性能;采用多 Token 预测(MTP)方法提升模型训练和推理的效率。2.DeepSeekMoE 架构通过动态组合多个专家模型架构通过动态组合多个专家模型提升模型的性能和效率提升模型的性能和效率 D
80、eepSeek 的 MoE 架构通过将传统 Transformer 中的前馈网络(FFN)层替换为 MoE 层,引入多个专家网络(Experts)和一个门控网络(Gating Network)。专家网络包括多个独立的专家模型,每个专家模型负责处理特定类型的数据。门控网络负责决定每个输入数据应该由哪些专家模型处理,并分配相应的权重;通过门控机制,模型能够动态选择最合适的专家来处理输入数据。DeepSeekMoE 架构采用稀疏激活策略,每次训练或推理时只激活部分专家,而不是整个模型;在 DeepSeek-V3 中,模型总参数为 6710 亿,但每次训练仅激活 370 亿参数,从而提高计算效率。传统
81、的 Transformer 架构采用固定的编码器-解码器结构,所有输入数据通过相同的多层自注意力机制和前馈神经网络处理;模型的参数是静态的,无法根据输入数据的特性动态调整。多头潜在注意力机制(MLA)的核心思想是对 KV 进行低秩压缩,以减少推理过程中的 KV 缓存,从而降低内存占用及计算成本。在传统的 Transformer 架构推理过程中,在进行生成式任务时,模型需要逐步生成序列,每次生成一个新 token 时,模型需要读入所有过去 Token 的上下文,重新计算之前所有token 的键(Key)和值(Value)。KV 缓存通过存储这些已计算的 Key 和 Value,避免重复计算,从而
82、提高推理效率。MLA 的方法是将 KV 矩阵转换为低秩形式,将原矩阵表示为两个较小矩阵(相当于潜 32/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 在向量)的乘积,在推理过程中,仅缓存潜在向量,而不缓存完整的 KV。这种低秩压缩技术显著减少了 KV 缓存的大小,同时保留了关键信息,从而降低内存占用及计算成本。多 token 预测(MTP)是一种创新的训练目标,通过同时预测多个未来 token 来提升模型的训练和推理效率。MTP 技术基于主模型(Main Model)和多个顺序模块(MTP Module),主模型负责基础的下一个 Token 预测,而 MTP
83、 模块用于预测多个未来 Token。传统的模型通常一次只预测下一个 token,在生成文本时,模型按照顺序逐个生成下一个 Token,每生成一个 Token 都要进行一次完整的计算,依赖前一个生成的 Token 来生成下一个;而 MTP 能够同时预测多个连续的 Token,模型通过改造增加多个独立输出头,利用多 token 交叉熵损失进行训练,一次计算可以得到多个 Token 的预测结果,显著增加了训练信号的密度,提升模型的训练和推理效率,并且 MTP 生成的文本更加连贯自然,适合长文本生成任务。33/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 3.Dee
84、pSeek 采用采用 FP8 混混合精度训练技术在训练效率、内存占用和模型性合精度训练技术在训练效率、内存占用和模型性能方面实现了显著优化能方面实现了显著优化 传统大模型通常使用 FP32 或 FP16 进行训练,精度较高,但计算速度慢,内存占用较大。而 FP8 数据位宽是 8 位,与 FP16、FP32 相比,使用 FP8 进行计算的速度最快、内存占用最小。DeepSeekFP8 混合精度将 FP8 与 BF16、FP32 等结合,采用 FP8 进行大量核心计算操作,少数关键操作则使用 BF16 或FP32,提高效率的同时确保数值稳定性,并显著减少了内存占用和计算开销。4.DeepSeek
85、实现大模型训练与推理成本优势巨大,助力实现大模型训练与推理成本优势巨大,助力 AI 应用大规模落应用大规模落地地 DeepSeekV3 的训练成本具有极大的经济性,根据 DeepSeek-R1TechnicalReport 的数据,在预训练阶段,每处理 1 万亿 tokens,训练 DeepSeek-V3 仅需 18 万 H800GPU 小时,即在 2048 块 H800GPU 的集群上需要 3.7 天;因此,DeepSeek-V3 的预训练阶段在不到两个月内完成,耗时 266.4 万(2664K)GPU 小时;加上上下文长度扩展所需的 11.9 万 GPU 小时和后训练所需的 5 千 GPU
86、 小时,DeepSeek-V3 的完整训练仅需 278.8 万 GPU 小时;假设 H800GPU 的租赁价格为每小时 2 美元,DeepSeek-V3的总训练成本仅为 557.6 万美元。2025 年 1 月 20 日 DeepSeek-R1 正式发布,其 API 定价为每百万输入tokens1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens16 元;OpenAlo1 定价为每百万输入tokens55 元(缓存命中)/110 元(缓存未命中),每百万输出 tokens438 元;DeepSeek-R1API 调用成本不到 OpenAlo1 的 5%。DeepSeek-V3 性
87、能对标 GPT-4o,DeepSeek-R1 性能对标 OpenAIo1,并且DeepSeek 模型成本优势巨大,有望推动 AI 应用大规模落地。34/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 5.DeepSeek 有望推动推理需求加速释放,国产有望推动推理需求加速释放,国产 AI 算力芯片或持续提升市算力芯片或持续提升市场份额场份额 随着大模型的成熟及 AI 应用的不断拓展,推理场景需求日益增加,推理服务器的占比将显著提高;IDC预计 2028 年中国 AI 服务器用于推理工作负载占比将达到 73%。根据的 IDC 数据,2024 上半年,中国加速芯片
88、的市场规模达超过 90 万张,国产 AI 芯片出货量已接近 20 万张,约占整个市场份额的 20%;用于推理的 AI 芯片占据 61%的市场份额。DeepSeek-R1 通过技术创新实现模型推理极高性价比,蒸馏技术使小模型也具有强大的推理能力及低成本,将助力 AI 应用大规模落地,有望推动推理需求加速释放。由于推理服务器占比远高于训练服务器,在 AI 算力芯片进口受限的背景下,用于推理的 AI 算力芯片国产替代空间更为广阔,国产 AI 算力芯片有望持续提升市场份额。6.国产算力生态链全面适配国产算力生态链全面适配 DeepSeek,国产,国产 AI 算力芯片厂商有望加速发算力芯片厂商有望加速发
89、展展 35/36 2025 年年 4 月月 14 日日 行业行业|深度深度|研究报告研究报告 DeepSeek 大模型得到全球众多科技厂商的认可,纷纷对 DeepSeek 模型进行支持,国内 AI 算力芯片厂商、CPU 厂商、操作系统厂商、AI 服务器及一体机厂商、云计算及 IDC 厂商等国产算力生态链全面适配 DeepSeek,有望加速 AI 应用落地。华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、寒武纪、云天励飞、燧原科技、昆仑芯等国产 AI 算力芯片厂商已完成适配 DeepSeek,DeepSeek 通过技术创新提升 AI 算力芯片的效率,进而加快国产 AI 算力芯片自主可控的
90、进程,国产 AI 算力芯片厂商有望加速发展。九九、参考研报参考研报 36/36 2025 年年 4 月月 14 日日行业行业|深度深度|研究报告研究报告 1.中原证券-半导体行业深度报告:AI 算力芯片AI 时代的引擎2.中原证券-半导体行业:AI 算力芯片是“AI 时代的引擎”,河南省着力布局3.东吴证券-电子行业点评报告:GPGPU 与 ASIC 之争算力芯片看点系列-4.招商证券-半导体行业月度深度跟踪:DeepSeek 推动国内 AI 生态发展,算力芯片适配、端侧创新等加速5.国投证券-电子行业周报:美新规加速算力芯片国产替代,高通展望端侧 AI 落地趋势6.国泰君安-电子元器件行业事
91、件快评:国内政策驱动自主可控,国产算力芯片加速渗透7.中原证券-通信行业专题研究:算力基建带动光芯片需求持续增长,河南省“追光逐芯”助力国产芯片突围8.山西证券-海光信息-688041-国产 CPU 和 DCU 双领军,信创+AI 驱动高速成长9.华福证券-龙芯中科-688047-自主指令集踏波逐浪,信创+开放市场双轮驱动10.申万宏源-纳芯微-688052-国产稀缺车规模拟芯片厂商11.中泰证券-纳芯微-688052-内生外延两翼齐飞,聚焦汽车等高壁垒市场持续深化产品矩阵12.国盛证券-寒武纪-688256-国产算力核心,时代的主角13.东吴证券-寒武纪-688256-寒武破晓,算力腾飞14.华鑫证券-复旦微电-688385-公司动态研究报告:盈利能力短期承压,新一代 FPGA 产品稳步推进15.广发证券-紫光国微-002049-维持行业领先地位,持续布局重点领域16.东方证券-紫光国微-002049-汽车电子领域全面布局,特种行业持续拓展17.华西证券-景嘉微-300474-国产 GPU 先驱者,定增加码高性能 GPU18.浙商证券-景嘉微-300474-深度报告:国产 GPU 先锋,技术积淀与研发优势驱动未来免责声明:以上内容仅供学习交流,不构成投资建议。