您的当前位置:首页 > 报告分类 > PDF报告下载

半导体行业深度:AI加速器协同高速通信技术加速AI创新发展-240328(22页).pdf

编号:158003 PDF  DOCX 22页 1.33MB 下载积分:VIP专享
下载报告请您先登录!

半导体行业深度:AI加速器协同高速通信技术加速AI创新发展-240328(22页).pdf

1、 AI 加速器加速器协同协同高速通信技术高速通信技术,加速加速 AI 创新发展创新发展 相关研究:相关研究:1.AI成长可期,需求复苏可望2023.12.24 行业评级:增持行业评级:增持 近十二个月行业表现近十二个月行业表现%1 个月 3 个月 12 个月 相对收益-1.67-16.3-14.8 绝对收益-0.2-11.0-27.8 注:相对收益与沪深 300 相比 分析师:王文瑞分析师:王文瑞 证书编号:证书编号:S0500523010001 TelTel:(8621)50293694 EmailEmail: 地址:地址:上海市浦东新区银城路88号中国人寿金融中心10楼湘财证券研究所 核心

2、要点:核心要点:训练端计算集群渗透率稳步提升,训练端计算集群渗透率稳步提升,AIAI 计算加速器需求上行计算加速器需求上行 业界通常根据 AI 模型发展的关键节点,将人工大智能分为训练端(Training)和推理端(Inference)。训练端的核心目标是训练出能够完成目标任务的人工智能大模型产品。训练端 AI 大模型的参数持续增多,AI 算力平台从过去依赖单一计算机的算力逐渐演变为依赖计算集群,研究显示大模型的参数、样本数与训练大模型所需 GPU 卡数呈正相关关系;大模型参数的增加会持续拉动 AI 计算加速器的需求。随着 AI 大模型训练需求及模型参数的提升,AMD 预计 2023 年至 2

3、027 年全球用于数据中心的 AI 计算加速芯片市场规模的年均复合增速约为 72.7%。网络优化提升计算集群性能,网络优化提升计算集群性能,InfinibandInfiniband 与与 RoCERoCE 方案方案市场渗透率提升市场渗透率提升 中国移动披露的数据显示大模型训练需要在不同的 GPU 网卡之间传递大量参数和梯度信息,GPU 通信时间占比达到 50%以上,提升同一机器内 GPU 与各硬件的传输效率、不同服务期间信息的传输效率对于大模型训练效率的提升至关重要。GPU 集群的跨服务器通信解决方案领域,业界多采用 InifiniBand 和 RoCE 解决方案。其中 RoCE 网络方案的普

4、及,或带动 DPU 崛起,赛迪顾问统计数据预计 2020 年至 2025 年我国 DPU市场规模年均复合增速约为 170%。RoCE 以太网正在向 400GbE/800GbE 升级演进;IDC 发布的报告显示,2023 年全球数据中心领域 200/400 GbE 交换机的收入同比增长 68.9%,DellOro 预测 2024 年将是 800GbE 以太网部署的重要一年,预计到 2027年,400 Gbps/800 Gbps 的端口数量渗透率将达到 40%以上;带动高性能以太网交换机设备及以太网交换芯片需求增长。存储设备领域,NVMe-oF+NVMe SSD 方案具有更高的性能、更低的延迟、更

5、高的可扩展性;Markets And Markets 预计受人工智能技术、物联网、数据安全等多种需求推动,2022 年至 2025 年,NVMe 市场规模年均复合增速达29.7%。投资建议投资建议 AI 大模型领域竞争的加剧叠加 AI 大模型参数的持续增长,推动大模型训练端的算力平台从依赖单一计算机的算力逐渐演变为依赖计算集群,催生了优化算力集群间跨服务器信息传输效率的需求。计算集群数量的提升,持续提振 AI 加速器(GPU、FPGA、ASIC)的市场需求。算力集群间跨服务器传输效率的优化会推升 Infiniband 及 RoCE 网络方案的市场渗透率,高性能 IB 交换机、以太网交换机,IB

6、 网卡、以太网智能网卡、DPU,NVMe SSD 等多种半导体硬件需求有望中长期受益。建议持续关注半导体行业,维持行业“增持”评级。风险提示风险提示 下游需求不及预期;企业新产品研发落地进展不及预期;政策支持力度不及预期。证券研究报告证券研究报告 2024 年年 03 月月 28 日日 湘财证券研究所湘财证券研究所 行业研究行业研究 半导体半导体行业深度行业深度 正文目录 1 AI 基础设施建设加速,奠定 AI 发展的基础.3 2 AI 大模型发展:训练至推理的全链条解析.4 2.1 训练端计算集群渗透率稳步提升,AI 计算加速器需求上行.5 2.2 网络优化提升计算集群性能,Infiniba

7、nd 与 RoCE 方案普及.8 2.2.1 RoCE 网络方案普及,或带动 DPU 崛起.12 2.2.2 以太网升级,带动高性能以太网交换机需求上行.14 2.2.3 NVMe 技术演进:存储性能革新推动数据中心升级.18 3 投资建议.19 4 风险提示.20 zViZiYfXhUkWlWaQaObRpNoOpNnRlOpPpMfQnPxO8OrQqRvPsPmNuOmPrP 2 敬请阅读末页之重要声明 行业研究 图表目录 图 1 人工智能-训练端.4 图 2 人工智能-推理端.4 图 3 人类智能基础设施体系视图.5 图 4 全球大模型参数量变化趋势.6 图 5 大模型训练需要的卡数估

8、算公式.7 图 6 算力计算模型.8 图 7 AI 服务器内部结构(华为 Atlas 800).9 图 8 人工智能服务器集群.9 图 9 Meta-以太网 Roce 解决方案.11 图 10 Meta-Nvidia InfiniBand 网络解决方案.11 图 11 全球 InfiniBand 市场规模.12 图 12 InfiniBand 市场主要参与者及产品.12 图 13 DPU 在数据中心计算侧和分布式存储领域的应用.13 图 14 全球 DPU 市场规模.13 图 15 中国 DPU 市场规模(亿元).13 图 16 交换机三层网络设计图示.14 图 17 全球以太网交换机市场规模

9、.15 图 18 AI 后端网络中高速以太网交换机渗透率上行.15 图 19 中国以太网交换设备市场规模及增速.16 图 20 2023 年全球以太网交换机市场竞争格局.16 图 21 2023YQ1 国内以太网交换机市场竞争格局.16 图 22 全球以太网交换芯片市场规模.17 图 23 全球商用 VS 自用占比.17 图 24 中国商用以太网交换芯片.18 图 25 中国商用以太网各应用场景市场规模占比.18 图 26 国内商用以太网交换芯片竞争格局.18 图 27 NVME 市场规模(亿美元).19 图 28 NVME 带动 PCIE 接口出货上行.19 表 1 AI 新型基础设施分类及

10、简介.4 表 2 中国加速计算市场产品构成.8 表 3 AI 服务器集群中的通信分类及简介.10 表 4 三种 RDMA 网络对比.11 表 5 交换机简介.14 表 6 高密度 400GE 有利于用户简化网络,提升效率.15 表 7 以太网交换芯片成本占比估算.17 3 敬请阅读末页之重要声明 行业研究 1 1 AIAI 基础设施建设基础设施建设加速,奠定加速,奠定 AIAI 发展发展的基础的基础 2024 年 3 月初发布的政府工作报告中将“适度超前建设数字基础设施,加快形成全国一体化算力体系;深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。”列为

11、 2024 年的重点工作目标。回溯历史会发现,每一轮推动人类社会生产方式的重大的科技革新都伴随着基础设施的建设。第一次工业革命以蒸汽机的发明和应用为标志,开启了人类大机器生产时代。这一时期,生产力的飞速发展对交通运输和能源供应提出了新的要求,铁路、运河等基础设施应运而生。它们极大地提高了运输效率,促进了商品流通和市场经济的发展,为工业革命的深入发展奠定了基础。第二次工业革命以电力的发明和应用为标志,开启了电气时代。这一时期,电力的广泛应用推动了生产力的再次飞跃,高速公路、电网等基础设施相继出现。高速公路的建设便捷了人员和货物的流动,电网的建立则为工业生产和日常生活提供了可靠的能源保障。第三次工

12、业革命以信息技术的兴起为标志,开启了信息时代。互联网、移动通信网络等信息基础设施的出现,彻底改变了人们的生产和生活方式。信息技术的广泛应用,推动了经济社会数字化转型,并催生了新兴产业和商业模式的快速发展 2023 年初,以 ChatGPT 为代表的生成式人工智能通用大模型的诞生推动着 AI 赋能千行百业的步伐加速,生成式 AI 主要用于内容生成,在学习归纳已有数据的基础上,学习数据产生的模式,并创造数据中不存在的新样本,实现了从数据分析到内容创作的跨越式发展;业界普遍认为以 ChatGPT 为代表的人工智能大模型的诞生或标志着新一轮科技革命的开启。AI 的快速发展和应用落地对于基础设施也提出了

13、更高的要求,AI 新型基础设施这一概念受到政府及市场的广泛关注。中国信通院联合华为发布的星河 AI 网络白皮书指出,AI 新型基础设施分为信息基础设施、融合基础设施和创新基础设施三类,其中信息基础设施是 AI 新型基础设施的核心;融合基础设施是传统基础设施升级转型的重要支撑;创新型基础设施则是支持 AI 应用落地的具有公共属性的基础设施。4 敬请阅读末页之重要声明 行业研究 表表 1 1 AIAI 新型基础设施分类及简介新型基础设施分类及简介 类别 定位 简介 信息基础设施信息基础设施 新型基础设施的核心 包含通信网络基础设施、新技术基础设施、算力基础设施。融合基础设施融合基础设施 传统基础设

14、施转型升级的重要支撑 新一代信息基础设施在各行业深度融合的产物。创新基础设施创新基础设施 支撑科学研究、技术开发、产品研制等具有公共属性的基础设施 重大科技基础设施、科教基础设施、产业技术创新基础设施等。资料来源:中国信通院、华为,湘财证券研究所 2 2 AIAI 大模型发展:训练至推理的全链条解析大模型发展:训练至推理的全链条解析 业界通常根据 AI 模型发展的关键步骤/节点,将人工大智能分为训练端(Training)和推理端(Inference)。训练端的核心目标是训练出能够完成目标任务的人工智能大模型产品;推理端则在训练完成的基础上,实现模型对于新的数据进行分析预测的功能。图图 1 1

15、人工智能人工智能-训练端训练端 图图 2 2 人工智能人工智能-推理端推理端 资料来源:NEURAL SERVERS、湘财证券研究所 资料来源:NEURAL SERVERS、湘财证券研究所 训练端,模型通过大量数据和算法的训练,学会识别和生成规律,并不断调整参数以提高预测准确性。最终,模型能够具备适应各种任务的学习能力,应用于图像识别、自然语言处理等多个领域。具体来说,训练过程可以分为数据准备、模型构建、模型训练、模型评估四个步骤:数据准备:收集和整理训练所需的数据,包括图像、文本、语音等多种类型。模型构建:选择合适的模型架构和算法,并设置模型参数。模型训练:将训练数据输入模型,并不断调整参数

16、,以最小化预测与实际值之间的误差。模型评估:使用测试数据评估模型的性能,并进行必要的调整和改进。5 敬请阅读末页之重要声明 行业研究 推理端,AI 模型将训练好的模型应用于新的、未见过的数据,以进行预测、分类或生成新内容。在这个阶段,模型利用先前学到的规律,在实际应用中做出有意义的决策。推理阶段是 AI 模型落地应用的关键环节,它可以应用于生产环境,例如对图像、语音或文本进行分类,也可以用于其他任务,如语言生成、翻译等。具体来说,AI 模型的推理过程可以分为模型部署、数据预处理、模型推理、结果预测四个步骤:模型部署:将训练好的模型部署到推理环境,例如云端、边缘设备等。数据预处理:对新的数据进行

17、预处理,使其符合模型的输入格式。模型推理:将预处理后的数据输入模型,得到预测结果。结果处理:对预测结果进行分析和处理,以满足应用需求。我们根据人工智能技术发展中的两个重要环节结合中国信通院发布的星河 AI 网络白皮书对人工智能基础设施进行分析可知,人工智能基础设施中训练端以信息基础设施的建设(如智算中心、AI 训练云)为核心,融合基础设施为辅;推理端的基础设施布局则多为融合性基础设施和创新型基础设施。图图 3 3 人类智能基础设施体系视图人类智能基础设施体系视图 资料来源:中国信通院、湘财证券研究所 2.1 训练端训练端计算计算集群集群渗透率稳步提升渗透率稳步提升,AI 计算加速器需求计算加速

18、器需求上行上行 训练端,AI 大模型的参数将持续增多,预计 AI 算力平台将会从过去依赖 6 敬请阅读末页之重要声明 行业研究 单一计算机的算力逐渐演变为依赖计算集群,目前 OpenAI、Meta、字节跳动等多家 AI 大模型厂商都在建设大规模的 GPU 卡集群。图图 4 全球大模型参数量变化趋势全球大模型参数量变化趋势 资料来源:iResearch、湘财证券研究所 根据 Nvidia、斯坦福大学和微软的联合发布的研究显示,大模型的参数、样本数、GPU 卡的峰值算力、GPU 卡的利用率、预期训练时长这五个因素为影响大模型所需 GPU 卡数的核心影响因素,并且模型参数量与训练样本之间呈正相关关系

19、。大模型训练所需卡数与影响因素存在下属的近似量化关系。根据华为、中国信通院联合发布的报告中的数据及测算显示,GPT3 的模型参数为 1750 亿,训练样本数为 3000 亿,若 GPU 的峰值算力为 312T,预期一个月完成模型训练,GPU 的平均利用率为 50%左右,则需要的 GPU 卡数为 1038卡;根据 Nvidia 近期举办的 GTC 大会披露的消息显示,ChatGPT-4.0 的参数规模约为 1.8 万亿,训练端需要 8000 个 Hopper GPU 工作约 3 个月。根据谷歌发布的 Gemini 1.5 Pro 技术报告披露的信息显示,Gemini 1.5pro 是在分布在多个

20、数据中心的 4096 个 TPUv4 加速器设备上进行训练的。海光信息公布的数据显示,2023 年全球 AI 加速计算市场规模将达 450 亿美元;美国超威半导体公司(AMD)预计 2027 年全球用于数据中心的 AI 计算加速芯片市场规模将增长至 4000 亿美元,年均复合增速约为 72.7%。7 敬请阅读末页之重要声明 行业研究 图图 5 大模型训练需要的卡数估算公式大模型训练需要的卡数估算公式 大模型训练需要的卡数=8 模型参数量 样本数预期的训练时长 GPU 卡的峰值算力 GPU 卡的利用率 资料来源:华为&中国信通院、湘财证券研究所 值得注意的是GPU只是AI加速器中的一种,AI计算

21、加速器还包括FPGA、ASIC、NPU 等非 GPU 加速卡。其中 ASIC 通常为特定深度学习任务而设计,在特定领域可以提供卓越的性能,但其可编程性不及 GPU,从而通用性弱于GPU。GPU 的多功能性和可编程性使其更适合于处于高速发展期的各种人工智能任务。目前全球 AI 计算加速芯片市场中,GPU 的市场份额稳定高于 80%;IDC 预计,到 2025 年人工智能芯片市场规模将达 726 亿美元,人工智能芯片搭载率将持续增高,目前每台人工智能服务器上普遍多配置 2 个 GPU,未来18 个月,GPU、ASIC 和 FPGA 的搭载率均会出现增长。国内加速计算市场中,GPU 的市场份额占比为

22、 90%左右,IDC 统计数据显示 2021 年至 2023H1 中国加速服务器市场中 GPU 和非 GPU 加速器的市场规模都保持上行态势。IDC 预计 2023 年我国人工智能服务器市场规模将达 91亿美元,同比增长82.5,2027年将达到134亿美元,年复合增长率达21.8。假设 2023 年中国加速计算市场中 GPU 的市场份额为 90%,则 2023 年国内GPU 加速器市场规模年同比增长 37.3%,非 GPU 加速器市场规模年同比增长23.5%。8 敬请阅读末页之重要声明 行业研究 表表 2 中国加速计算市场产品构成中国加速计算市场产品构成 20212021 年年 202220

23、22 年年 2023H12023H1 2023E2023E 2027E2027E 中国加速器市场规模(亿美元)53.9 67 31 91 134 GPU 加速器市场份额占比 88.40%89%92%90%-GPU 加速器市场规模年同比增速 72.54%25%-37.3%-非 GPU 加速器市场份额占比 11.60%11%8%10%-非 GPU 加速器市场规模年同比增速 43.80%17.9%8%23.5%-资料来源:IDC、湘财证券研究所 2.2 网络优化提升计算集群性能,网络优化提升计算集群性能,Infiniband 与与 RoCE 方方案普及案普及 GPU 集群中 GPU 卡的利用率(即并

24、行计算效率)的提升要以超大容量的网络为基础,人工智能应用中,数据需要在不同组件之间传输,例如内存、存储和其他处理单元。较长的网络通信时间会显着影响人工智能系统的整体性能和效率,从而限制充分利用人工智能处理器的处理能力。根据华为发布的报告显示,业界普遍认可算力受到通用计算能力、高性能计算能力、存储能力和网络能力的综合影响。图图 6 算力计算模型算力计算模型 算力=f(通用算力,高性能算力,存储能力,网络能力)资料来源:华为&中国信通院、湘财证券研究所 业界目前采用了数据并行、流水线并行、张量并行及混合并行这四种并行计算方式来提升 AI 大模型的训练速率:(1)数据并行:将训练数据集分成多份,分不

25、到不同的服务器上进行并行训练,从而减少训练时间;需要通过分布式存储系统来存储和管理分片数据,为了确保模型更新的一致性,每个服务器需要与其他服务器通信以交换梯度和其他信息。9 敬请阅读末页之重要声明 行业研究(2)流水线并行:将模型的不同层,部署到不同的 GPU 服务器上,从而减少大模型计算对于GPU内存的需求。类似于流水线作业,每个 GPU 负责处理模型的一部分,并将其传递给下一阶段的 GPU 进行处理。相邻设备间通过通信链路传输数据。(3)张量并行:将模型切分到不同的 GPU 卡或服务器上,使得每个 GPU 上的参数量显著减小,从而可以实现对于更大参数的模型进行训练的目标。(4)混合并行:将

26、数据并行、模型并行和流水线并行等多种并行计算方式结合起来,从而进一步提升 AI 大模型的训练效率。混合并行已经被广泛应用于 AI 大模型的训练,例如 GPT-3、PaLM 等。混合并行中每个服务器也需要与其他服务器通信以交换信息。数据并行、流水线并行和混合并行都需要通过跨服务器通信来进行信息数据并行、流水线并行和混合并行都需要通过跨服务器通信来进行信息传输,降低信息传输的时间及损耗是业界关注的重点。传输,降低信息传输的时间及损耗是业界关注的重点。根据中国移动披露的数据显示大模型训练需要在不同的 GPU 网卡之间传递大量参数和梯度信息,GPU 通信时间占比达到 50%以上;从而提升同一机器内 G

27、PU 与各硬件(如内存、CPU、GPU)的传输效率、提升不同服务期间信息的传输效率对于大模型训练效率的提升至关重要。目前业界提升机器内 GPU 的通信效率通过高速高性能的 PCIE5.0/6.0 接口芯片,英伟达 NVLINK、华为 HCCS 互连技术等来实现。提升跨服务器的数据通信效率,业界多采用 RDMA 网络通信技术,RDMA技术能直接通过网络接口访问内存数据,无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。目前有3 种主流的 RDMA 技术,分别为 Infiniband(Nvidia 主推的网络解决方案)、RoCE(RDMA over Co

28、nverged Ethernet)、iWARP。图图 7 7 AIAI 服务器内部结构(华为服务器内部结构(华为 Atlas 800Atlas 800)图图 8 8 人工智能人工智能服务器集群服务器集群 资料来源:OFEEK、湘财证券研究所 资料来源:华为官网、湘财证券研究所 10 敬请阅读末页之重要声明 行业研究 表表 3 3 AIAI 服务器集群中的通信分类及简介服务器集群中的通信分类及简介 机器内通信机器内通信 名称名称 简介 QPI/UPIQPI/UPI 链路链路 Intel 开发的点对点处理器连接技术,例如多核 CPU 系统中 CPU 间的通信。PCIEPCIE 用于 CPU 与 G

29、PU 之间的通信,以及其他设备与 CPU 之间的通信。NVLINKNVLINK NVLink 提供了直接的点对点连接,具有比传统的 PCIe 总线更高的传输速度和更低的延迟。主要用于连接多个 GPU 之间或连接 GPU 与其他设备(如 CPU、内存等)之间的通信 DMA(Direct DMA(Direct Memory Access)Memory Access)允许设备直接访问内存,无需 CPU 参与。提供在外设和存储器之间或者存储器和存储器之间的高速数据传输。MPIMPI 并行计算的应用程序接口(API),常在超级计算机、电脑集群等非共享内存环境程序设计。HCCSHCCS 华为研发的 Cac

30、he 一致性总线 HCCS,可以实现 CPU 和 CPU 之间的高速互联,通信速率高达每秒 30GT,是业界主流 CPU 互联速率的 2 倍多。机器间通信(跨服务器通信)机器间通信(跨服务器通信)TCP/IPTCP/IP TCP/IP 提供了点对点链接的机制,将资料应该如何封装、寻址、传输、路由以及在目的地如何接收,都加以标准化 RDMARDMA 一种直接存储器访问技术,它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。RDMA 可以释放许多资源,从而提高系统的吞吐量和性能。可以在远程计算机上执行读取和写入等操作,而无需中断该计算机的 CPU。该技术有助于提高数据传输速

31、率和低延迟网络,尤其适合在大规模并行计算机集群中使用。RDMA 通过启用网络适配器将数据直接传输到系统缓冲区来使用零复制网络。-InfiniBandInfiniBand 一种高性能网络技术,专为低延迟和高带宽数据通信而设计。它通常用于数据中心和高性能计算(HPC)环境,特别是需要在服务器之间进行快速可靠通信的应用程序,如机器学习训练、高性能计算、云计算。一种高性能网络技术,专为低延迟和高带宽数据通信而设计。它通常用于数据中心和高性能计算(HPC)环境,特别是需要在服务器之间进行快速可靠通信的应用程序。-iWARPiWARP 基于 TCP 的 RDMA 网络,通过标准 TCP/IP 基础设施实现

32、类似 RDMA 的数据传输性能,从而减少延迟并提高效率。具备较好的兼容性,但性能不及 InfiniBand。-RocRoce e 可通过标准以太网实现 RDMA(远程直接内存访问)功能。它本质上将 RDMA“封装”在以太网之上,允许应用程序利用 RDMA 的优势来实现更快的数据传输,而无需像 Infiniband 这样的专用硬件。与传统的 TCP/IP 相比,RoCE 降低了数据传输延迟,适合需要快速通信的应用,例如大规模机器学习训练。资料来源:维基百科、CDSN、华为,湘财证券研究所 GPU集群的跨服务器通信解决方案领域,业界多采用InifiniBand和RoCE解决方案,如近期 Meta

33、官网披露的其一对 GPU 集群的网络架构方案,一个集群采用了基于 Arista 公司的 Arista 7800 机架交换机的以太网 RoCE 方案,另一个则使用 Nvidia 的 Quantum2 InfiniBand 网络解决方案。Infiniband 从硬件级别保证可靠传输,提供更高的带宽和低时延,但是搭配 InfiniBand 网卡、InfiniBand 交换机、InfiniBand 路由器和 InfiniBand to Ethernet 网关系统来实现解决方案的落地,解决方案配置成本较高;根据 Dell 官方网站披露的数据显示,搭建 Infiniband 所需的 NVIDIA Quan

34、tum-2 QM9700-交换机单价约为 4 11 敬请阅读末页之重要声明 行业研究 万美金。RoCE 搭配普通的以太网交换机、支持 RoCE 的网卡和适配器即可实现解决方案的落地。根据 IDC 披露的数据显示,2022 年 AI 网络市场中,InfiniBand 网络方案贡献了 75%的收入,目前 IB 网络方案在业界的占比较高。图图 9 9 MetaMeta-以太网以太网 RoceRoce 解决方案解决方案 图图 1010 MetaMeta-Nvidia Nvidia InfiniBandInfiniBand 网络解决方案网络解决方案 资料来源:Meta、湘财证券研究所 资料来源:Meta

35、、湘财证券研究所 表表 4 三种三种 RDMA 网络对比网络对比 InfiniBandInfiniBand iWARPiWARP RoCERoCE 性能性能 最好 稍差(受 TCP 影响)与 InfiniBand 相当 成本成本 高 中 低 稳定性稳定性 好 差 较好 交换机交换机 IB 交换机 以太网交换机 以太网交换机 资料来源:华为、湘财证券研究所 根据百度发布的 智算中心网络架构白皮书 披露的统计数据显示 Nvidia目前是 infiniband 网络解决方案和配套硬件供应商市场上市占率最高的企业,市场份额超过 70%。英伟达可以提供 InfiniBand 网卡、InfiniBand

36、交换机、路由器及网管、远程互连系统及收发器等各种 Infiniband 网络解决方案所需的硬件。根据英伟达披露的季度报告数据显示2024 年英伟达的Quantum InfiniBand解决方案的年度营收增长超过了 5 倍。咨询机构 Maximize Market Research 统计数据显示 2021 年全球 InfiniBand 市场规模为 66.6 亿美元,预计 2029 年增长至 983.7 亿美元,年均复合增速约为 40%。12 敬请阅读末页之重要声明 行业研究 图图 1111 全球全球 InfiniBandInfiniBand 市场规模市场规模 图图 1212 InfiniBand

37、InfiniBand 市场市场主要主要参与者及产品参与者及产品 公司公司 产品简介产品简介 Nvidia 是 InfiniBand 技术的主要供应商之一,提供各种InfiniBand 适配器、交换机和其他相关产品 Intel 提供各种 InfiniBand 网络产品和解决方案 思科 知名的网络设备制造商,也提供 InfiniBand 交换机和其他相关产品 Hewlett Packard Enterprise 一家大型 IT 公司,提供各种 InfiniBand 网络解决方案和产品,包括适配器、交换机和服务器等。资料来源:MAXIMIZ Market Research、湘财证券研究所 资料来源:

38、百度、湘财证券研究所 2.2.1 RoCE 网络方案普及,网络方案普及,或带动或带动 DPU 崛起崛起 RoCE 协议是 RDMA 网络的主流实现方案之一,RoCE 有 RoCEv1 和RoCEv2两个版本,其中RoCE v2位于协议栈的传输层,引入IP解决了RoCEv1的可扩展性问题,可以在不同网络上的设备之间使用。RoCE v2 还引入了多队列支持,网络具有更高的吞吐量和并发性能;数据传输效率进一步提高,适配于数据中心、高性能计算等的网络需求。同时相较于 IB 网络,RoCE v2 网络具有硬件无关性,即其可以在不同厂商的以太网适配器和交换机上实现网络搭建。RoCE v2 所需的网络接口卡

39、为适用于 RoCE v2 的 InfiniBand 和以太网混合适配器,主流厂商有 Nvidia、Intel、Broadcom、华为。目前商用网卡的端口PHY 速率最高已达 400Gbps;目前 25Gbps 和 100Gbps 网卡仍是市场的主力型产品。DPU 在 RDMA 网络中的应用受到硬件厂商及云厂商的关注,DPU 是一种新型可编程处理器,专用于数据中心的 DPU 可以将存储协议和安全协议的封装与解封装等耗费大量 CPU 算力任务卸载到 DPU 上,节约更多 CPU 算力支撑更多的应用业务。在存储域,DPU 可以在分散的计算架构中,连接不同资源池的方式将从原来的系统总线承载,转变成总线

40、-网络-总线的方式;并在网络侧为存储系统提供高效拥塞控制机制和增强的负载均衡能力,降低长尾时延,提供更可靠更高效的存储传输网络,根据中国信通院公布的数据显示,在某些场景下,DPU 可以带来 10 倍以上的应用性能提升。020040060080010002021Y2029E40%13 敬请阅读末页之重要声明 行业研究 图图 13 DPU 在数据中心计算侧和分布式存储领域的应用在数据中心计算侧和分布式存储领域的应用 资料来源:中兴通讯、湘财证券研究所 DPU 通常被集成在 SmartNIC(智能网卡)中,作为 CPU 和 GPU 之外的第三种计算单元,构建了数据中心的异构计算架构。根据市场研究机构

41、 DellOro 的数据显示,2024 年全球 SmartNIC 的市场规模将超过 6 亿美元,占全球以太网适配器市场的 23%。预计 2026年全球智能网卡收入增长至 16亿美元,年均复合增速达 38.67%。而 DPU 除了应用于数据中心的智能网卡中,还可应用于大数据清洗处理、网络安全、深度学习、边缘计算等多领域,赛迪顾问统计数据显示 2020 年我国 DPU 市场规模仅为 3.9 亿元,预计至 2025 年增长至565.9 亿元,年均复合增速约为 170%。图图 1414 全球全球 DPUDPU 市场规模市场规模 图图 1515 中国中国 DPUDPU 市场规模市场规模(亿元)(亿元)资

42、料来源:赛迪顾问、湘财证券研究所 资料来源:赛迪顾问、湘财证券研究所 DPU 可以基于 ASIC、FPGA 或 SoC 技术构建,Allied Market research 的统计数据显示,FPGA 和 SOC 为市场上的主力产品。DPU 领域的供应商由传统的半导体设计企业和云厂商构成,海外大厂英伟达、Intel、AMD、Marvell、01002003002020Y2021E2022E2023E2024E2025E市场规模(亿美元)01002003004005006002020Y2021E2022E2023E2024E2025E 14 敬请阅读末页之重要声明 行业研究 Broadcom、A

43、mazon、Microsoft 在 DPU 领域布局已久,近年来陆续发布新品。国内市场华为、阿里云、百度云、火山引擎(字节跳动旗下的云计算平台)、京东云、腾讯、海光信息、新华三等均有产品推出,近年来如沐创集成电路、芯启源、云豹智能、中科驭数等创业企业的研发出货进展也备受市场关注。2.2.2 以太网升级,带动高性能以太网交换机需求上行以太网升级,带动高性能以太网交换机需求上行 RoCE v2 网络方案对以太网交换机没有能力要求,目前大部分数据中心交换机都支持 RDMA 流控技术,和 RoCE 网卡配合,实现端到端的 RDMA 通信。数据中心网络为三层网络设计结构,数据的传输通过接入层交换机、汇聚

44、层交换机、核心层交换机。图图 1616 交换机交换机三层网络设计图示三层网络设计图示 表表 5 5 交换机简介交换机简介 名称名称 简介简介 接入层交换机 数据中心接入交换机部署于数据中心接入层,用于数据中心各种类型的服务器接入,其中下行链路需支持从万兆、25G 等各种性能服务器接入,而上行链路则主要包括 40G、100G 两种接口,且依据不同收敛比要求,接口数量也各不相同,因此数据中心接入交换机需要具备较高的性能以及丰富的接口形态;汇聚层交换机 汇聚层交换机是多台接入层交换机的汇聚点,作用是将接入节点统一出口,同时也进行转发及选路。汇聚层交换机需处理来自接入层设备的所有通信量,并提供到核心层

45、的上行链路,因此需要具备高转发性。核心层交换机 数据中心核心交换机部署在数据中心核心层,用于数据中心接入交换机间的连通以及数据中心接入交换机与上层网络的连通。随着数据中心的流量和带宽呈现指数级增长,数据中心核心交换机除需具备更高的性能、可靠性及吞吐能力外,还需具备更高的带宽扩展能力、更强的报文缓存能力以及路由表转发能力。资料来源:腾讯云开发者社区、湘财证券研究所 资料来源:赛迪顾问、湘财证券研究所 随着数据流量的不断增长,特别是 5G 时代到来后流量激增,传统 10G 网络架构的数据中心面临着来自应用和数据的巨大网络压力,传统数据中心亟需解决(1)数据中心之间海量数据高速迁移(2)数据中心间带

46、宽瓶颈(3)数据中心间带宽利用率低等问题,为了应对这些挑战,国内主流的数据中心接入层及汇聚层交换机端口速率正在由 10G/40G 向 25G/100G 升级演进,端口速率为 25G/100G 的交换机具有更高的数据迁移效率、更低的功耗,适配于大型数据中心、云计算、人工智能等领域的需求;根据华为发布的数据显示,以一个 100T 流量规模的数据中心组网为例,采用 400GE 技术,核心汇聚交换机需要 5K 个接口,相对于 100GE 技术减少 75%;接入层与汇聚交换机采用 15 敬请阅读末页之重要声明 行业研究 100GE 技术,则需要 20K 个接口,相对于 25GE 技术减少 75%;同样服

47、务器与接入层交换机互联的端口速率若采用 100GE 技术,则相对于 25GE 技术减少 75%。表表 6 高密度高密度 400GE 有利于用户简化网络,提升效率有利于用户简化网络,提升效率 服务器与 TOR(接入层)互联 Tor 与汇聚交换机互联 汇聚交换机与核心交换机互联 端口速率 端口数 端口速率 端口数 端口速率 端口数 10G 200K 10G 200K 40G 50K 25G 80K 25G 80K 100G 20K 100G 20K 100G 20K 400G 5K 资料来源:华为、湘财证券研究所 IDC 发布的报告显示,2023 年全球以太网交换机收入同比增长 20.1%,达到

48、442 亿美元(约 3175 亿人民币)。数据中心领域 200/400 GbE 交换机的收入在 2023 年全年增长了 68.9%,100GbE 交换机占数据中心领域市场收入的 46.3%,全年收入同比增长 6.4%;数据中心领域高速以太网交换机保持中高速增长主要系受益于 AI 发展的浪潮。DellOro 预测 2024 年将是 800GbE以太网部署的重要一年,400GbE 端口出货量将继续增长,预计到 2027 年,400 Gbps/800 Gbps 的端口数量渗透率将达到 40%以上。同时,AI 后端网络将加快向高速的迁移。如下图所示,预计到 2025 年,AI 后端网络中的大多数交换机

49、端口将达到 800 Gbps,到 2027 年将达到 1600 Gbps。图图 1717 全球以太网交换机市场规模全球以太网交换机市场规模 图图 1818 AIAI 后端网络中高速以太网交换机渗透率上行后端网络中高速以太网交换机渗透率上行 资料来源:IDC、湘财证券研究所 资料来源:DellOro、湘财证券研究所 中国市场的以太网交换设备市场规模处于快速增长中。根据华经产业研究院的统计数据显示,2022 年我国以太网交换设备的市场规模约为 449.3 亿元,同比增长 12.97%;预计 2025 年我国以太网交换设备的市场规模将达到574.2 亿元,2020-2025 年年均复合增长率为 10

50、.8%。16 敬请阅读末页之重要声明 行业研究 图图 19 中国以太网交换设备市场规模及增速中国以太网交换设备市场规模及增速 资料来源:华经产业研究院、盛科通信招股说明书、湘财证券研究所 IDC 统计数据显示,2023 年以太网交换机市场的前五大供应商市占率合计为 77.8%;其中思科 2023 年全年市场份额达到 43.7%,全年以太网交换机收入同比增长 22.2%。Arista Networks2023 年全年市场份额为 11.1%,以太网交换机收入在 2023 年增长了 35.2%,其中,91.4%来自数据中心领域。华为全年市场份额达到 9.4%,以太网交换机总收入年同比增长 10.6%

51、。HPE 的全年市场份额为 9.4%,以太网交换机收入在 2023 年增长了 67.6%。H3C(新华三)全年的市场份额为 4.2%,以太网交换机收入年同比下降了 6.3%。国内中兴通讯、锐捷网络、迈普通信等企业也已推出高端交换机产品,国内市场中华为、新华三和锐捷网络的合计市场份额占比超 80%,其中 2023 年华为的市场份额占比为 41.5%,稳居中国数据中心交换机市场第一。图图 20 2023 年全球以太网交换机市场竞争格局年全球以太网交换机市场竞争格局 图图 21 2023YQ1 国内以太网交换机市场竞争格局国内以太网交换机市场竞争格局 资料来源:IDC、湘财证券研究所 资料来源:ID

52、C、湘财证券研究所 太网交换芯片也是决定以太网交换机性能的核心部件之一。根据盛科通信的招股说明书信息分析可知,以太网交换芯片占以太网交换机的成本比例为 4%左右。0%5%10%15%20%0100200300400500600700市场规模(亿元)同比增速H3C,34.50%华为,30.90%锐捷网络,14.90%思科,7%中兴通讯,3.50%其他,9.20%17 敬请阅读末页之重要声明 行业研究 表表 7 以太网交换芯片成本占比估算以太网交换芯片成本占比估算 以太网交换芯片以太网交换芯片单价(元单价(元/颗)颗)以太网交换机单价以太网交换机单价(元(元/台)台)占比占比 2020Y 763.

53、54 12485.54 6.12%2021Y 354.2 10436.07 3.39%2022Y 386.63 9873.54 3.92%资料来源:盛科通信招股说明书、湘财证券研究所 根据灼识咨询的数据,以销售额计算,全球以太网交换芯片的整体市场规模在 2016 年为 318.5 亿元,到 2020 年达到 368.0 亿元,年均复合增长率为3.6%。预计到 2025 年,全球以太网交换芯片市场规模将达到 434.0 亿元,年均复合增长率为 3.4%。商用市场占比逐年提升。图图 2222 全球以太网交换芯片市场规模全球以太网交换芯片市场规模 图图 2323 全球商用全球商用 VSVS 自用占比

54、自用占比 资料来源:盛科通信招股说明书、灼识咨询、湘财证券研究所 资料来源:盛科通信招股说明书、灼识咨询、湘财证券研究所 中国市场云计算的快速渗透、AI 和机器学习的兴起、5G 商用、WiFi 6 等通信技术的升级以及企业信息化建设的深入推动着国内以太网交换芯片市场的快速增长。根据灼识咨询的数据,以销售额计算,中国商用以太网交换芯片的整体市场规模在 2016 年为 54.1 亿元,到 2020 年达到 90.0 亿元,年均复合增长率为 13.6%。预计到 2025 年,中国商用以太网交换芯片市场规模将达到 171.4亿元,国内市场的以太网市场规模 5年年均复合增长率预计为 13.8%。分应用场

55、景来看,2020 年至 2025 年商用数据中心领域的以太网交换芯片市场规模增速最为亮眼,预计年均复合增速可达 18%;工业用以太网交换芯片市场规模年均复合增速预计为 9.8%。0%20%40%60%80%100%商用占比自用占比 18 敬请阅读末页之重要声明 行业研究 图图 2424 中国商用以太网交换芯片中国商用以太网交换芯片 图图 2525 中国商用以太网各应用场景市场规模占比中国商用以太网各应用场景市场规模占比 资料来源:盛科通信招股说明书、灼识咨询、湘财证券研究所 资料来源:盛科通信招股说明书、灼识咨询、湘财证券研究所 根据中商情报网统计的数据显示,目前国内商用以太网交换芯片市场中博

56、通稳居龙头地位,市占率接近 62%;美满电子市占率约为 20%;台湾企业瑞昱的市占率约为 16%;盛科通信的市占率约为 1.6%。国内自用以太网交换芯片市场中的主要参与者为华为和思科,其中华为市场份额占比高于 80%。国内中兴通讯的以太网交换机芯片也为自研产品。图图 2626 国内商用以太网交换芯片竞争格局国内商用以太网交换芯片竞争格局 资料来源:中商情报网、湘财证券研究所 2.2.3 NVMe 技术演进:存储性能革新推动数据中心升级技术演进:存储性能革新推动数据中心升级 训练端存储训练端存储能力能力的提升的提升:NVMe SSD 是一种新型的存储设备,它使用 NVMe 协议与主机进行通信。N

57、VMe 协议比传统的 SATA 协议具有更高的效率和更低的延迟,因此 NVMe SSD 可以提供更快的存储性能。2016 年NVMe 工作组发布 NVMe over Fabric 规范,早期的 NVMe over PCIe 局限在主机的本地盘使用,而通过 Fabrics(如 RDMA 或光纤通道)代替 PCIe,可帮助主机访问节点外的 NVMe SSD 资源,NVMe-oF 极大地增强了灵活性和 19 敬请阅读末页之重要声明 行业研究 扩展性,将 NVMe 的低延时、高并发等特性,从服务器级别扩展到整个数据中心级别。NVMe over Fabric 及 NVME SSD 的优势主要包括:(1)

58、更高的性能:NVMe over Fabric 可以提供比传统网络存储更高的性能。(2)更低的延迟:NVMe over Fabric 可以提供比传统网络存储更低的延迟,因为它消除了数据通过 CPU 的传输路径。(3)更高的可扩展性:NVMe over Fabric 可以支持多路连接,从而可以提供更高的存储容量和更大的带宽。Nvidia 还开发了 GPU Direct Storage 技术,允许 GPU 直接访问 NVMe SSD,从而进一步提高 AI 应用的性能。咨询机构 Markets And Markets 预计受人工智能技术、物联网、数据安全等多种需求推动,NVMe 市场规模将从 2020

59、 年的 446 亿美元增长至 2025 年的 1635 亿美元,年均复合增速达 29.7%;NVME 出货的上行也将带动高性能 PCIE 接口的需求增长。图图 2727 NVMENVME 市场规模市场规模(亿美元)(亿美元)图图 2828 NVMENVME 带动带动 PCIEPCIE 接口出货上行接口出货上行 资料来源:Markets And Markets、湘财证券研究所 资料来源:IDC、湘财证券研究所 3 3 投资建议投资建议 AI 大模型领域竞争的加剧叠加 AI 大模型参数的持续增长,推动大模型训练端的算力平台从依赖单一计算机的算力逐渐演变为依赖计算集群,催生了优化算力集群间跨服务器信

60、息传输效率的需求。计算集群数量的提升,持续提振 AI 加速器(GPU、FPGA、ASIC)的市场需求。算力集群间跨服务器传输效率的优化会推升 Infiniband 及 RoCE 网络方案的市场渗透率,高性能 IB 交换机、以太网交换机,IB 网卡、以太网智能网卡、DPU,NVMe SSD 等多种半导体硬件需求有望中长期受益。建议持续关注半导体行业,维持行业“增持”评级。05001000150020002020Y2025ECAGR:29.7%20 敬请阅读末页之重要声明 行业研究 4 4 风险提示风险提示 下游需求不及预期;企业新产品研发落地进展不及预期;政策支持力度不及预期。敬请阅读末页之重要

61、声明 湘财证券投资评级体系(市场比较基准为沪深湘财证券投资评级体系(市场比较基准为沪深 300 指数)指数)买入:买入:未来 6-12 个月的投资收益率领先市场基准指数 15%以上;增持:增持:未来 6-12 个月的投资收益率领先市场基准指数 5%至 15%;中性:中性:未来 6-12 个月的投资收益率与市场基准指数的变动幅度相差-5%至 5%;减持:减持:未来 6-12 个月的投资收益率落后市场基准指数 5%以上;卖出:卖出:未来 6-12 个月的投资收益率落后市场基准指数 15%以上。重要声明重要声明 湘财证券股份有限公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本研究报告仅

62、供湘财证券股份有限公司的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告由湘财证券股份有限公司研究所编写,以合法地获得尽可能可靠、准确、完整的信息为基础,但对上述信息的来源、准确性及完整性不作任何保证。湘财证券研究所将随时补充、修订或更新有关信息,但未必发布。在任何情况下,报告中的信息或所表达的意见仅供参考,并不构成所述证券买卖的出价或征价,投资者应自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失书面或口头承诺均为无效。本公司及其关联机构、雇员对使用本报告及其内容所引发的任何直接或间接损失概不负责。投资者应明白并理解投资证券及投资产品的目的和当中的风

63、险。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎抉择。在法律允许的情况下,我公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供多种金融服务。本报告版权仅为湘财证券股份有限公司所有。未经本公司事先书面许可,任何机构和个人不得以任何形式翻版、复制、发布、转发或引用本报告的任何部分。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“湘财证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。如未经本公司授权,私自转载或者转发本报告,所引起的一切后果及法律责任由私自转载或转发者承担。本公司并保留追究其法律责任的权利。分析师声明分析师声明 本人具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以独立诚信、谨慎客观、勤勉尽职、公正公平准则出具本报告。本报告准确清晰地反映了本人的研究观点。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(半导体行业深度:AI加速器协同高速通信技术加速AI创新发展-240328(22页).pdf)为本站 (learning) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
小程序

小程序

客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部