《电子行业深度研究报告:Scalinglaw依然有效自研AI芯片后劲十足-240928(41页).pdf》由会员分享,可在线阅读,更多相关《电子行业深度研究报告:Scalinglaw依然有效自研AI芯片后劲十足-240928(41页).pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、 证券研究报证券研究报告告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 行业研究行业研究 电子电子 2024 年年 09 月月 28 日日 电子行业深度研究报告 推荐推荐(维持)(维持)Scaling law 依然有效依然有效,自研,自研 AI 芯片后劲十足芯片后劲十足 Scaling law 依然有效依然有效,AI 自研应需而生自研应需而生。ChatGPT 掀起新一轮 AI 产业浪潮,预训练测 Scaling law 仍然有效,推理侧 Scaling law 刚崭露头角,AI 算力有望维持高增长。全球科技龙头纷纷想抓住此轮 AI 浪潮的发展机遇,资本开支快速增长
2、,但 AI 投入尚未得到明显回报,置身于是否加码 AI 投资的两难境地,自研 AI 芯片具备降本增效、提高自身竞争力等优势,AI 自研应需而生。英伟达深耕英伟达深耕 AI 产业十多载,在产业十多载,在 GPU/网络网络/软件三方面筑建深厚壁垒软件三方面筑建深厚壁垒。英伟达抓住以深度学习、大模型为核心技术的 AI 技术变革机遇,针对 AI 模型的大规模并行计算需求,在 GPU、高速互连领域深度布局。其中,单 GPU 节点算力凭借着在结构、核心数等方面进行能力提升,过往 8 年内算力增长超千倍;在高速互连领域,英伟达在片间、Scale Up 和 Scale Out 网络域均提出相应解决方案。这些努
3、力最终促使英伟达在 AI 系统领域构建了深厚的护城河。若想取代甚至超越英伟达需要在 AI 加速器、高速互连等多方面取得突破。AI 产业群雄并起,自研产业群雄并起,自研 AI 有望提速有望提速。面对英伟达在 AI 算力领域的领导地位,以北美云厂商为首的科技企业,在算力芯片、高速互连等领域进行前瞻布局。其中,在 AI 自研芯片领域,亚马逊、微软、Meta 等超大规模 AI 客户联合 Broadcom、Marvell 等芯片厂商,加快 AI 芯片推出速度;在 Scale Up网络,以 AMD、博通为首的科技玩家,构建 UALink 高速互连开放标准,提供了复制 NVlink 高速互连的路径,聚合全产
4、业资源,加速追赶 NVlink。在Scale Out 网络,以太网凭借着生态优势、齐备的产业链和较高的性价比,得到了亚马逊、Meta、字节跳动等科技巨头们的青睐,超以太网联盟和英伟达Spectrum-X 平台两大阵营均在该领域发力,推动以太网 AI 网络快速发展。未来基于以太网的 AI 网络有望成为主流解决方案。随着非英伟达阵营在 AI 加速器、高速互连等领域不断取得突破,AI 自研方案有望加速落地。投资建议投资建议:AI 算力需求推动 AI 服务器、高速交换机用 PCB 需求维持高增长,相关公司有望深度受益。具体如下:(1)沪电股份:)沪电股份:公司深耕北美客户,AI 业务加速放量,800G
5、 交换机有望与 AI 服务器共振向上。(2)生益电)生益电子:子:公司深耕数通板行业十多载,成功开发了包括亚马逊在内的多家服务器客户,AI 配套的主板及加速卡项目均已经进入量产阶段;800G 交换机产品已经小批量交付,有望开始放量。(3)胜宏科技:)胜宏科技:公司前瞻布局 HDI 领域,AI 多业务条线进展顺利,有望深度受益于 AI 服务器用 HDI 需求提升。风险提示风险提示:AI 产业发展不及预期、行业竞争格局加剧、产品导入不及预期、新技术迭代风险、原材料价格大幅上涨。重点公司盈利预测、估值及投资评级重点公司盈利预测、估值及投资评级 EPS(元)(元)PE(倍)(倍)PB(倍)(倍)简称简
6、称 股价(元)股价(元)2024E 2025E 2026E 2024E 2025E 2026E 2024E 评级评级 沪电股份 36.52 1.38 1.86 2.08 26.50 19.67 17.59 6.10 强推 生益电子 21.49 0.22 0.66 0.98 96.11 32.80 21.91 4.29 推荐 胜宏科技 34.00 1.45 2.33 3.13 23.39 14.60 10.86 3.34 强推 资料来源:Wind,华创证券预测 注:股价为2024年9月27日收盘价 证券分析师:熊翊宇证券分析师:熊翊宇 邮箱: 执业编号:S0360520060001 证券分析师:
7、耿琛证券分析师:耿琛 电话:0755-82755859 邮箱: 执业编号:S0360517100004 证券分析师:岳阳证券分析师:岳阳 邮箱: 执业编号:S0360521120002 联系人:董邦宜联系人:董邦宜 邮箱: 行业基本数据行业基本数据 占比%股票家数(只)467 0.06 总市值(亿元)60,142.35 7.27 流通市值(亿元)47,521.91 7.31 相对指数表现相对指数表现%1M 6M 12M 绝对表现 11.7%5.5%-2.7%相对表现-0.4%-0.2%-2.8%相关研究报相关研究报告告 消费电子行业重大事项点评:国内外大厂加速布局,AI 眼镜或将成为下一代 A
8、I 最佳落地终端之一 2024-08-15 电子行业 2023年报及 2024年一季报总结:AI赛道从云侧向端侧加速布局,驱动电子行业迎来复苏 2024-05-26 消费电子行业深度研究报告:潜望式镜头引领智能手机光学创新,产业链相关标的有望受益 2024-04-25 -24%-12%-1%11%23/0923/1224/0224/0524/0724/092023-09-272024-09-27电子沪深300华创证券研究华创证券研究所所 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 投资投资主题主题 报告亮点报告亮点 AI
9、技术技术底层原理解构,揭开底层原理解构,揭开 AI 算力基础设施面纱算力基础设施面纱。本文梳理了 AI 技术的演进趋势,揭示了 AI 算力本质上是一种大规模并行计算,并通过对英伟达在 GPU/高速互连领域的布局进行解构,指出了 AI 算力硬件产品的升级迭代的方向。AI 产业群雄并起,产业群雄并起,AI 自研自研有望提速有望提速。本文指出了头部科技企业面临是否加码 AI 基础设施的两难境遇,AI 自研应需而生。通过 AI 头部玩家在 AI 加速器、高速互连领域布局的分析,与前文 AI 算力需求、英伟达 AI 产业布局遥相呼应,可以看出 AI 自研逐步走上正轨,有望迎来快速发展期。投资逻辑投资逻辑
10、 AI 产业产业快速快速发展,发展,有望有望推动推动数通板数通板行业迎来量价齐升行业迎来量价齐升。本文从 AI 技术底层原理出发,对 AI 产业头部玩家英伟达进行解构,分析非英伟达阵营在 AI 产业的进展,结合当前科技企业的境遇,推断出 AI 自研芯片有望迎来快速增长黄金期,数通板行业有望迎来量价齐升,相关 PCB 企业有望深度受益。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 3 目目 录录 一、一、大模型大模型 Scaling 仍在持续,推动大规模并行计算仍在持续,推动大规模并行计算.7(一)GPU与深度学习相辅相成,开
11、启新一轮 AI浪潮.7(二)AI大模型掀起新一轮 AI技术变革,大规模分布式 AI算力需求迫切.9 二、二、解构英伟达解构英伟达 AI 布局,探寻布局,探寻 AI 产业发展方向产业发展方向.13(一)GPU算力提升之路:微结构提升或有望成为算力提升主要途径.14(二)高速互连:构建全系列高速互连系统,打造 AI超级计算机.16 1、NVLink:从内部高速互连走向超级网络.18 2、IB 交换机:构建无损的 RDMA网络,支持 Scale Out网络互连.26 三、三、AI 产业群雄并起,产业群雄并起,AI 自研后劲十足自研后劲十足.28(一)AI自研芯片:AI算力成为核心要素,科技巨头追求自
12、主可控.28(二)UALink:UALink 打造开放高速互连标准,旨在打破英伟达 NVlink垄断.31(三)以太网:以太网优势日益凸显,加速广泛部署于 AI算力中心.32 四、四、相关公司相关公司.38(一)沪电股份:AI业务加速放量,800G交换机有望与 AI服务器共振向上.38(二)生益电子:AI服务器大批量交付,800G交换机产品有望放量.38(三)胜宏科技:前瞻布局 HDI领域,深度受益于 AI服务器用 HDI需求提升.38 五、五、风险提示风险提示.39 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 4 图表目
13、录图表目录 图表 1 深度学习通过嵌套映射来学习复杂概念.7 图表 2 深度学习是一种特定的机器学习.7 图表 3 深度神经网络前向传播过程.8 图表 4 深度神经网络反向传播过程.8 图表 5 CPU与 GPU架构对比.9 图表 6 芯片架构设计三大目标:带宽(Bandwidth)、延时(Latency)和吞吐量(Throughput).9 图表 7 AI算力需求增长速度远超硬件算力提升速度.10 图表 8 分布式计算与单节点计算对比.10 图表 9 AI模型分布式并行策略.11 图表 10 模型训练时,张量并行的通信流量远高于流水线和数据并行.11 图表 11 大模型训练中常用的混合并行训
14、练策略.12 图表 12 AI集群的典型架构.13 图表 13 AI大模型训练基本过程.13 图表 14 英伟达的三大支柱系统和网络、硬件和软件.14 图表 15 GPU 架构发展之路.15 图表 16 V100的 44矩阵乘法比 P100快 12倍.15 图表 17 Transformer引擎自动处理数据精度.15 图表 18 H100相比 A100性能提升 6倍主要源自架构创新.16 图表 19 Transformer 模型大小随不同用例呈指数级增长.16 图表 20 过往 8年时间单 GPU算力提升 1000倍.16 图表 21 AI算力三种网络.17 图表 22 Scale Up和 S
15、cale Out网络对比.17 图表 23 GPU 之间 PCIe通信需要通过 CPU.18 图表 24 GPU 之间使用 NVLink 通信无需通过 CPU.18 图表 25 历代 NVlink情况.18 图表 26 H200八卡服务器配置 4颗 NVSwitch芯片.19 图表 27 历代 NVSwitch芯片情况.19 图表 28 历代 NVSwitch芯片情况.19 图表 29 多 GPU之间通信是否使用 NVSwtich芯片.19 图表 30 不使用 NVSwitch芯片将导致需要花费更多的时间用于通信.19 图表 31 是否使用 NVSwtich芯片的 GPU之间通信带宽速度比较.
16、20 图表 32 GPU 并行计算中涉及数据交换和并行计算.20 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 5 图表 33 NVSwitch 的 SHARP 功能可以提升通信效率,加速计算过程.20 图表 34 NVLink交换机.21 图表 35 NVLink网络与 NVLink 对比.21 图表 36 NVLink交换机构建 SuperPOD.22 图表 37 NVLink网络与 IB网络对比.22 图表 38 NVlink网络在通信密集任务下性能优势更加明显.23 图表 39 NVLink-C2C技术.23 图表
17、40 GH200 Superchip芯片结构及 GPU、CPU之间内存访问通道.24 图表 41 NVLink C2C 大幅加快推理速度.24 图表 42 GB200 NVL72 机柜.24 图表 43 Compute Tray.25 图表 44 Switch Tray.25 图表 45 GB200 NVL72 Compute Tray 和 Switch Tray的结构.25 图表 46 B200 GPU芯片.26 图表 47 第五代 NVLink 交换芯片.26 图表 48 AI网络与传统数据中心网络需求对比.26 图表 49 RDMA和传统 TCP/IP 比较.26 图表 50 RDMA相
18、比传统以太网有更高的带宽.26 图表 51 RDMA相比传统以太网有更低的延迟.26 图表 52 不同 RDMA协议栈.27 图表 53 IB、iWARP和 RoCE对比.27 图表 54 英伟达在 GPU、CUDA和 Networking构建深厚的护城河.28 图表 55 北美科技厂商资本开支快速增长(亿美元).29 图表 56 ASIC受到云厂商的青睐.29 图表 57 北美云厂商纷纷推出自研 AI芯片.29 图表 58 定制化 AI芯片满足客户三大需求.30 图表 59 Marvell 预计 2028年全球 Accelerated custom compute 市场规模将达到 429亿美
19、元.31 图表 60 搭载 ASIC自研芯片 AI Server 出货占比逐步走高.31 图表 61 UAlink创建 Scale Up网络.32 图表 62 AI数据中心与传统的 CPU 数据中心所面临场景有所不同.33 图表 63 以太网已经被用于部署大规模 AI集群.33 图表 64 AI头部玩家纷纷布局基于以太网的 AI网络.33 图表 65 全球生成式 AI数据中心以太网交换机市场规模预计迎来高速发展.34 图表 66 超以太网联盟成员众多,聚集了 AI产业头部玩家.34 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210
20、号 6 图表 67 UEC 相比 RDMA有多个方面进行了优化.34 图表 68 Spectrum-X平台相对于传统以太网的表现有大幅提升.35 图表 69 英伟达计划 Spectrum-X平台用于构建百万级别 GPU的 AI网络.35 图表 70 不同类型交换机对比.36 图表 71 Arista、ODM直销交换机在全球以太网交换机中占比持续提升.36 图表 72 Arista高速交换机市场份额逐步逼近 Cisco.37 图表 73 2023年 Arista高速交换机端口出货量超过 Cisco.37 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可
21、(2009)1210号 7 一、一、大模型大模型 Scaling 仍在持续仍在持续,推动大规模并行计算推动大规模并行计算(一)(一)GPU 与深度学习相辅相成,开启新一轮与深度学习相辅相成,开启新一轮 AI 浪潮浪潮 深度学习开启新一轮深度学习开启新一轮 AI 浪潮浪潮,大模型接续发力,大模型接续发力。2006年图灵奖得主 Hinton在Science提出了深度神经网络,掀起了基于深度学习的新一轮 AI 浪潮,奠定了大模型发展的基础。深度学习兴起的背景是计算能力的提高和大数据时代的到临,能够让机器自动地从原始数据中学习。从原始数据中提取高层次、抽象的特征是非常困难的。深度学习另辟蹊径,让计算机
22、通过比较简单概念来构建复杂的概念,能够让计算机从经验和数据中得到提高的技术,在计算机视觉、自然语言处理等领域取得了一定的成果。深度学习早期主要用于解决机器学习中的表示学习的问题,但是由于其强大的能力,逐渐被用于解决一些通用人工智能的问题,如推理、决策等,当前主流的大模型技术本质上是由深度学习的延伸发展而来的。图表图表 1 深度学习通过嵌套映射来学习复杂概念深度学习通过嵌套映射来学习复杂概念 图表图表 2 深度学习是一种特定的机器学习深度学习是一种特定的机器学习 资料来源:Ian Goodfellowd等Deep Learning 资料来源:Ian Goodfellowd等Deep Learni
23、ng 深度学习深度学习训练、推理过程需要训练、推理过程需要大量大量并行并行运算。运算。深度学习广泛应用的模型是神经网络,主要是因为神经网络能够使用反向误差传播算法,可以很好地解决贡献度问题。深度学习狭义上就是很多层神经网络。深度神经网络通过训练以后用于推理任务,其中训练过程主要是让模型通过输入的数据不断学习,即调整模型的参数,包含前向传播和反向传播2 个过程;推理过程主要是指训练好的模型对输入数据进行预测,仅包含前向传播过程。不论是前向传播还是反向传播均需要大量的并行运算。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 8 图
24、表图表 3 深度神经网络前向传播过程深度神经网络前向传播过程 图表图表 4 深度神经网络反向传播过程深度神经网络反向传播过程 资料来源:鲁蔚征秦续业Python数据科学加速 资料来源:鲁蔚征秦续业Python数据科学加速 GPU 采用高度并行架构,采用高度并行架构,适用于深度学习大规模并行计算适用于深度学习大规模并行计算。CPU 用于处理操作系统、应用程序运行中各类计算任务,需要很强的通用性;GPU可以更高效地处理并行运算任务。从架构上看,CPU与 GPU主要存在几大区别:(1)并行处理能力:并行处理能力:CPU 拥有较少的计算单元(ALU),但是具有复杂的控制单元(Control),擅长逻辑
25、控制和串行计算。GPU 拥有大量的计算单元(ALU)和线程(Thread),大量 ALU 可以实现大的计算吞吐量,超配线程可以同时处理多个任务,能够较好处理内存延时问题,从而专注于大规模并行计算。(2)内存架构:内存架构:CPU 拥有较大的 Cache,可以缓存大量后续可能需要访问的数据,从而降低读取数据的时间。GPU 缓存很少,且其缓存目的与 CPU 不同,是为更多的线程服务的,如果有很多线程需要访问一个相同的数据,缓存会合并访问需求然后去访问 DRMA,获取数据后再发到对应的线程。GPU 拥有更多的寄存器能够支持大量的线程。(3)指令集:指令集:CPU 的指令集通用性更强,适合执行各类任务
26、;GPU 的指令集主要用于图形处理和通用计算。CPU 可以在不同的指令集之间快速切换,而 GPU 只是获取大量相同的指令并进行高速推送。(4)功耗和散热:功耗和散热:CPU 功耗相对较低,散热要求也相对较低;GPU 由于其高度并行特性,其功耗通常相对较高,需要更好的散热系统来保证稳定运行。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 9 图表图表 5 CPU 与与 GPU 架构对比架构对比 资料来源:Github GPU 追求高吞吐量,追求高吞吐量,CPU 追求低延时。追求低延时。GPU 与 CPU 的架构之间的差异是因为追
27、求不同的目标。GPU的设计目标是最大化吞吐量,相比单个任务执行的速度,其更关心多任务的并行度,允许一次将尽可能多的任务送到 GPU,然后通过大量的 Core 并行处理任务。CPU 以序列化地方式处理任务,其目标是在尽可能低的延迟下完成任务,同时保持任务之间快速切换的能力。图表图表 6 芯片架构设计三大目标:带宽(芯片架构设计三大目标:带宽(Bandwidth)、延时()、延时(Latency)和吞吐)和吞吐量量(Throughput)资料来源:Github(二)(二)AI 大模型掀起新一轮大模型掀起新一轮 AI 技术变革,大规模分布式技术变革,大规模分布式 AI 算力需求迫切算力需求迫切 AI
28、 算力需求增长迅速,算力需求增长迅速,拉动大规模分布式拉动大规模分布式 AI 算力基础设施需求算力基础设施需求快速增长快速增长。深度学习掀起新一轮 AI 浪潮,算法、算力和数据三大要素协同迭代,推动 AI 模型能力不断提升。在过去十多年时间里,受限于摩尔定律,CPU/GPU/TPU 等处理器的算力增长速度远不及 AI 算力需求增长速度。面对迅速增长的 AI 算力需求,大规模分布式计算能够将复杂的任务分解到单个处理器上,用以解决单芯片性能不足的问题。未来随着大模型的广泛使用,大规模分布式 AI算力需求有望持续高增长。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文
29、号:证监许可(2009)1210号 10 图表图表 7 AI 算力需求增长速度远超硬件算力提升速度算力需求增长速度远超硬件算力提升速度 资料来源:麦络等机器学习系统:设计与实现 图表图表 8 分布式计算与单节点计算对比分布式计算与单节点计算对比 资料来源:麦洛等机器学习系统:设计和实现 深度学习算法并行运行三大方式:数据并行、流水线并行和张量并行。(1)数据并行数据并行:数据并行可以解决单节点算力不足的问题。该并行方式使用多个并行设备来加速训练,每个设备上部署相同的模型,将训练数据划分到不同设备上。各设备利用本地训练数据进行训练,完成前向传播和反向传播。在反向传播过程中,不同设备上的模型会生成
30、局部梯度,需要对不同设备上相对应的局部梯度进行聚合,计算平均梯度,然后利用平均梯度更新模型参数,从而确保各设备上模型的参数是一致的。该聚合过程往往由集合通信 AllReduce 操作完成,通信的数据量规模和模型参数规模成正比,对于千亿、万亿规模参数的大模型来说通信数据量是很大的。(2)流水线流水线并行:并行:深度神经网络由多层神经网络组成,大模型广泛采用的 Transformer模型架构也是如此。流水线并行是将多层神经网络切分成多个阶段,再把不同阶段映射到不同设备上,使得不同设备去计算神经网络的不同部分。正向传播时,每个阶段的计算节点完成计算之后将结果传送到下一阶段的计算节点,同时,下一阶段的
31、计算节点接收上一阶段计算节点的结果并开始计算;反向传播时,当最后一个计算节点的梯度算完以后,将结果发送给上一阶段计算节点,同时,上一阶段计算节点接收最后一个阶段计 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 11 算节点梯度的结果,并进行本阶段的梯度计算,然后继续往前传播。该并行策略让每个设备只需计算模型的一部分,可以解决单计算节点内存不足的问题,不过其需要不同计算节点之间进行数据传输,传输的内容包括正向计算的激活值和反向计算的梯度值。这种通信在一个迭代里至少会发生几十次,但通信量一般不大,对网络的性能要求相对较低。(3)
32、张量并行:)张量并行:该并行方式是联合多个计算节点同时做一个张量运算,如:矩阵乘法。单个计算节点对局部的张量进行计算,然后对多个计算节点做全局的 AllReduce 同步。张量计算结果的大小不仅和模型参数规模有关,还和训练使用的数据 batchsize相关,通常都非常大,并且在一次迭代里会发生很多 AllReduce。因此,张量并行对网络带宽的需求最大。图表图表 9 AI 模型分布式并行策略模型分布式并行策略 资料来源:百度智能云开发者中心 考虑三大并行策略的特点,在训练大模型时通常混合采用三种并行策略。首先,单节点内部多张 GPU 卡之间优先采用张量并行,充分利用单节点内部 GPU 之间 N
33、VLink 高带宽通信能力。其次,当模型过大时,超出了单节点的内存空间,因此在多节点之间使用流水线并行策略。最后,为了进一步加快模型训练速度,使用数据并行策略。图表图表 10 模型训练时,张量并行的通信流量远高于流水线和数据并行模型训练时,张量并行的通信流量远高于流水线和数据并行 资料来源:Wenxue Li等Understanding Communication characteristics of distributed training 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 12 图表图表 11 大模型训练中常
34、用的混合并行训练策略大模型训练中常用的混合并行训练策略 资料来源:百度智能云开发者中心 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 13 二、二、解构英伟达解构英伟达 AI 布局,布局,探寻探寻 AI 产业发展方向产业发展方向 AI 算力集群通常由算力集群通常由 AI 服务器、高速交换机构成。服务器、高速交换机构成。AI 加速器是 AI 算力的最小单元,一台服务器通常包含多个加速器。为了方便管理,多台服务器组成一个机柜,并通过架顶交换机进行互连。在架顶交换机满载的情况下,可以通过在架顶交换机间增加骨干交换机(Spine S
35、witch)进一步接入新的机柜。最终,完成对成千上万个加速器互连,利用上文所述的三种并行策略:张量并行、流水线并行和数据并行来提供大规模分布式 AI算力,容纳更大的模型和数据,加快训练和推理速度。在 AI 大模型训练过程中,前向计算、反向计算和通信占据了主要时间,因此为了加快训练速度需要在算力、运力上同步进行提升。图表图表 12 AI 集群的典型架构集群的典型架构 资料来源:麦洛等机器学习系统:设计和实现 图表图表 13 AI 大模型训练基本过程大模型训练基本过程 资料来源:段晓东等面向智算中心的新型以太网需求与关键技术 英伟达英伟达在系统和网络、硬件和软件进行在系统和网络、硬件和软件进行全全
36、方位方位布局,构建布局,构建深厚竞争壁垒。深厚竞争壁垒。在计算芯片方面,英伟达布局了 CPU、GPU 以及 CPU-GPU SuperChip 等产品;在网络领域,英伟达构建了两种类型的网络:一种是 NVLink 总线域网络,用于算力 Scale Up 扩展;另一种是 InfiniBand 和 Ethernet 网络,用于算力 Scale Out 扩展,其中基于 InfiniBand 的Quantum产品用于构建 AI Factory,基于 Ethernet的 Spectrum 用于构建 AI Cloud。此外,英伟达开发了以 CUDA 为核心的软件架构,与其硬件进行配套使用,从而更好地发挥硬
37、件的性能。英伟达凭借其在系统和网络、硬件和软件的全方位布局,使其在 AI 生态 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 14 牢牢占据主导地位。图表图表 14 英伟达的三大支柱英伟达的三大支柱系统和网络、硬件和软件系统和网络、硬件和软件 资料来源:Doug OLaughlin The Coming Wave of AI,and How Nvidia Dominates,fabricatedknowledge(一)(一)GPU 算力提升之路算力提升之路:微结构提升或有望成为算力提升主要途径:微结构提升或有望成为算力提升主
38、要途径(1)CUDA Core 阶段阶段:2010年,英伟达在 Fermi 架构中,英伟达对处理核心进行了改进和调整,引入了新的设计特性如:更好的调度和管理机制、更高效内存访问以及更多的可编程功能。在 Fermi 架构之后,硬件层面上 GPU 的处理核心为 CUDA Core,软件层面上使用 CUDA(计算统一设备架构)充分发挥 GPU 的性能。CUDA Core 主要用于并行计算,理论上 CUDA Core越多,算力也就越强,因此在随后的 Kepler、Maxwell架构上大量增加 CUDA Core。(2)Tensor Core 阶段:阶段:2016 年,英伟达推出 Pascal 架构,其
39、 GPU 开始朝着深度学习方向发展;2017年,推出 Volta架构,新引入了 Tensor Core模块,该模块可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在随后的每一次架构中不断对 Tensor Core进行优化。(3)Transformer 引 擎引 擎 阶 段阶 段:2022 年,英 伟 达 推 出 Hopper 架 构,并 引 入 了Transformer 引擎,可以显著加快 AI 算力,用于应对日益增加的模型参数。H100 的Transformer Engine使用 NVIDIA 第四代 Tensor Core技术,旨在加速由 Transfo
40、rmer 作为基础模块构建的模型训练速度。这些 Tensor Core可以应用混合的 FP8和 FP16格式,从而显著加速 Transformer 的 AI 计算。2024 年,英伟达推出 Blackwell 架构,推出了第二代 Transforer 引擎,将定制的 Blackwell Tensor Core 技术与 NVIDIA TensorRT-LLM 和 NeMo框架创新相结合,可以加速大语言模型和专家混合模型的推理和训练。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 15 图表图表 15 GPU 架构发展之路架构发展
41、之路 架构名称架构名称 Fermi Kepler Maxwell Pascal Volta Turing Ampere Hopper 发布时间 2010 2012 2014 2016 2017 2018 2020 2022 核心参数 16个 SM,每个 SM包含32个 CUDA Cores,一共512 CUDA Cores 15个 SMX,每个 SMX 包括 192个FP32+64个FP64 CUDA Cores 16个 SM,每个 SM包括 4个处理块,每个处理块包括32个 CUDA Cores+8 个LD/ST Unit+8 SFU GP100有 60个 SM,每个SM包括 64个 CUD
42、A Cores,32个DP Cores 80个 SM,每个 SM包括32个FP64+64 Int32+64 FP32+8个Tensor Cores 102核心 92个 SM,SM重新设计,每个 SM包含64个Int32+64个FP32+8个Tensor Cores 108个 SM,每个 SM包含64个FP32+64个INT32+32个FP64+4个Tensor Cores 132个 SM,每个 SM包括128个FP32+64个INT32+64个FP64+4个Tensor Cores 特点&优势 首个完整GPU计算架构,支持与共享存储结合的Cache层次GPU架构,支持 ECC GPU架构 游戏
43、性能大幅提升,首次支持 GPU Direct技术 每组 SM单元从 192个减少到每组 128个,每个SMM单元拥有更多逻辑控制电路 NVLink第一代,双向互联带宽160GB/s,P100拥有 56个 SM HBM NVLink2.0,Tensor Cores第一代,支持AI 运算 Tensor Cores2.0,RT Core第一代 Tensor Core3.0,RT Core2.0,NV Link3.0,结构稀疏性矩阵MIG1.0 Tensor Core4.0,NVLink4.0,结构稀疏性矩阵 MIG2.0 纳米制程 40/28nm 30亿晶体管 28nm 71 亿晶体管 28nm 8
44、0亿晶体管 16nm 153亿晶体管 12nm 211亿晶体管 12nm 186亿晶体管 7nm 283亿晶体管 4nm 800亿晶体管 代表型号 Quadro 7000 K80 K40M M5000 M4000GTX 9XX系列 P100 P6000 TTX1080 V100 TiTan T4,2080TI RTX 5000 A100 系列 H100 资料来源:Github,华创证券 图表图表 16 V100 的的 44 矩阵乘法比矩阵乘法比 P100 快快 12 倍倍 图表图表 17 Transformer 引擎引擎自动处理数据精度自动处理数据精度 资料来源:英伟达官网 资料来源:英伟达官
45、网 通过对英伟达历代 GPU 发展历程分析,我们可以知道其性能主要提升来自以下几个方面:(1)CUDA Core、Tensor Core等新架构的提出;(2)CUDA Core、Tensor Core等核心数的提升;(3)专门为大语言模型和混合专家模型设计的 Transformer 引擎。以 H100相比 A100的进步为例,H100的提升源自以下几个方面:(1)H100配备 132个 SM,比A100的 108个 SM增加了 22%;(2)采用新的第四代 Tensor Core,每个 H100 SM的速度提升了 2 倍;(3)Tensor Core 采用新的 FP8 数据格式和相应的 Tra
46、nsformer 引擎将性能提升 2 倍;(4)H100的时钟频率将性能提升 1.3倍。究其背后的原因,我们认为是随 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 16 着深度学习成为 AI 的主流技术,Transformer 成为大模型的基础架构,AI 模型并行计算的基础范式日渐趋于稳定,从而可以在硬件层面上针对广泛使用的算法进行微架构设计,推动算力不断提升。未来随着 AI 技术逐步趋于成熟,相关架构可能会趋于统一,届时硬件层面上针对算法定制化设计或许是 AI芯片算力提升的主要方向。图表图表 18 H100 相比相比 A1
47、00 性能提升性能提升 6 倍主要源自倍主要源自架构创新架构创新 资料来源:英伟达官网 图表图表 19 Transformer 模型大小随不同用例呈指数级增长模型大小随不同用例呈指数级增长 图表图表 20 过往过往 8 年时间单年时间单 GPU 算力提升算力提升 1000 倍倍 资料来源:英伟达官网 资料来源:英伟达官网(二)(二)高速互连高速互连:构建全系列高速互连系统,打造:构建全系列高速互连系统,打造 AI 超级计算机超级计算机 单芯片算力和内存有限,无法承载大模型,通过多种互连技术将多颗算力芯片互连在一起提供大规模的算力、内存。GPU 互连主要分为业务互连、Scale Up 网络互连和
48、 Scale Out互连,各自承载的业务流各不相同,具体细分来看:业务网络互连:业务网络互连:承载的是诸如需要计算的输入数据,输出结果,以及在各类存储系统中 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 17 的模型参数、checkpoint 等。需要进行极大范围的互连,并且和云上的存储、业务接口等互通,采用以太网技术,通常支持各类 RDMA。Scale Out 网络互连:网络互连:训练的 DP、PP并行计算切分流程,通常要把集群横向扩展到超多的 GPU 机柜,当前的训练规模已经发展到 10w 卡,目前国际的标准趋势是,采用
49、专门优化的以太网技术 UEC(Ultra Ethernet Consortium)协议。Scale Up 网络互连:网络互连:以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量为主,有在网计算的需求(可以对 All reduce 在 Switch 节点上进行加速)。在一定规模内互连,由于其对于性能的超高要求,采用专门设计的协议,比如NVIDIA 的 NVlink 及 NVSwitch 技术,另外一个近期成立的协议联盟是 UALink(Ultra Accelerator Link),由AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Mi
50、crosoft 共同发起,目前在行业内得到了广泛响应。图表图表 21 AI 算力三种网络算力三种网络 资料来源:半导体行业观察公众号 图表图表 22 Scale Up 和和 Scale Out 网络对比网络对比 Scale Up Scale Out 典型协议 NVLink、UALink InfiniBand、UEC 芯片连接方案 GPU直出 GPU外置网卡 流量类型 如集合通信 TP、EP 如集合通信 DP、PP 数据流特点 极度延迟敏感、带宽需求极大 单次通信数据块较大 典型通信语义 内存 load/store、内存 DMA RDMA 单节点典型带宽 TB/s级 百 GB/s 级 互连区域
51、机柜级 集群级 资料来源:半导体行业观察公众号,华创证券 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 18 1、NVLink:从内部高速互连走向超级网络:从内部高速互连走向超级网络 (1)NVLink:支持:支持 GPU 之间的高速数据传输和协同工作之间的高速数据传输和协同工作 随着 AI 算力需求不断增长,多 GPU 并行成为一种趋势,可以支撑大模型的训练和推理。对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工作。然而,传统的 PCIe 总线由于带宽限制和延迟问题,已经无法满足 GP
52、U 之间通信的需求。2018 年,英伟达推出了 NVLink 用于解决该问题。它允许 GPU 之间以点对点方式进行通信,绕过传统的 PCIe 总线,实现了更高的带宽和更低的延迟,为多 GPU 系统提供更高的性能和效率。单个 GPU 的 NVLink 带宽从 Pascal 架构的 160GB/s,提升到Blackwell架构的 1800GB/s。图表图表 23 GPU 之间之间 PCIe 通信需要通过通信需要通过 CPU 图表图表 24 GPU 之间使用之间使用 NVLink 通信无需通过通信无需通过 CPU 资料来源:远川科技评论,转引自与非网 资料来源:远川科技评论,转引自与非网 图表图表
53、25 历代历代 NVlink 情况情况 First Generation Second Generation Third Generation Fourth Generation Fifth Generation NVLink bandwidth per GPU 160GB/s 300GB/s 600GB/s 900GB/s 1800GB/s Maximum Number of Links per GPU 4 6 12 18 18 Supported NVIDIA Architectures Pascal Volta Ampere Hopper Blackwell 资料来源:英伟达官网,华创证
54、券(2)NVSwitch芯片:提高通信速度,加速计算过程 第一代 NVSwitch 与英伟达 V100 GPU 和第二代 NVLink 一起推出,可以连接多个NVLink,实现在单个机架内和多个机架间以 NVLink 的最高速度进行多对多 GPU 通信。自第三代 NVSwitch 起,NVSwitch 芯片具备 SHARP 加速功能,可以提升通信效率、加快计算过程。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 19 图表图表 26 H200 八卡服务器配置八卡服务器配置 4 颗颗 NVSwitch 芯片芯片 图表图表 27
55、历代历代 NVSwitch 芯片情况芯片情况 资料来源:英伟达官网 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 图表图表 28 历代历代 NVSwitch 芯片情况芯片情况 First Generation Second Generation Third Generation Fourth Generation Number of GPUs with direct connection within a NVLink
56、domain Up to 8 Up to 8 Up to 8 Up to 576 NVSwitch GPU-TO-GPU bandwidth 300GB/s 600GB/s 900GB/s 1800GB/s Total aggregate bandwidth 2.4TB/s 4.8TB/s 7.2TB/s 1PB/s Supported NVIDIA architectures Volta Ampere Hopper Blackwell 资料来源:英伟达官网,华创证券 以 H200 八卡服务器为例,如果不使用 NVSwtich 芯片,成本会降低一些,但是每个GPU必须将 900 GB/s的连接
57、分成 7 个专用的 128 GB/s 的连接,与其他 7张 GPU进行点对点连接。这意味着 GPU 通信的速度取决于通信的 GPU 数量。若借助 NVSwitch 芯片,服务器中的每个 GPU 都能以 900 GB/s 的速度与其他任何 GPU 同时进行通信。NVSwitch是无阻塞的,使得 GPU 之间通信的峰值速率与通信的 GPU数量无关。图表图表 29 多多 GPU 之间通信是否使用之间通信是否使用 NVSwtich 芯片芯片 图表图表 30 不使用不使用 NVSwitch 芯片将导致需要花费更多的芯片将导致需要花费更多的时间用于通信时间用于通信 资料来源:英伟达官网 资料来源:英伟达官
58、网 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 20 图表图表 31 是否使用是否使用 NVSwtich 芯片的芯片的 GPU 之间之间通信通信带宽速度比较带宽速度比较 GPU 数量数量 点对点带宽点对点带宽 NVSwitch带宽带宽 2 128GB/s 900 GB/s 4 3 x 128GB/s 900 GB/s 8 7 x 128GB/s 900 GB/s 资料来源:英伟达官网,华创证券 NVSwitch3 芯片新引入了 SHARP 功能,可以对多个 GPU 单元的计算结果进行聚合和更新,从而减少网络数据包并提高计算
59、性能。图表图表 32 GPU 并行计算中涉及数据交换和并行计算并行计算中涉及数据交换和并行计算 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 图表图表 33 NVSwitch 的的 SHARP 功能功能可以可以提升通信效率,加速计算过程提升通信效率,加速计算过程 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BAN
60、DWIDTH SUPERPODS,转引自Hotchips官网 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 21 (3)NVLink 交换机:构建 NVLink 网络 2022 年,英伟达将 NVSwitch 芯片独立出来,并制作成 NVLink 交换机,可以在单个机架内和多个机架间连接成 NVLink 网络,可以解决 GPU 之间的高速通信带宽和效率问题。每个服务器都有独立的地址空间,为 NVLink 网络中的 GPU 提供数据传输、隔离和安全保护。当系统启动时,NVLink 网络通过软件 API 自动建立连接,并可以在运
61、行过程中更改地址。图表图表 34 NVLink交换机交换机 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 图表图表 35 NVLink网络与网络与 NVLink 对比对比 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 InfiniBand 网络和
62、NVLink 网络是在高性能计算和数据中心应用中使用的两种不同的网络技术。它们有以下区别:架构和设计:架构和设计:InfiniBand 网络是一种采用多通道、高速串行连接的开放标准网络技术,支持点对点和多播通信。NVLink 网络是由英伟达(NVIDIA)开发的专有技术,旨在实现 GPU 之间的高速直连。应用场景:应用场景:InfiniBand 网络广泛应用于高性能计算集群和大规模数据中心,主要用于Scale Out 网络。NVLink 网络主要用于大规模 GPU 集群、HPC 等领域,主要用于 Scale 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证
63、监许可(2009)1210号 22 Up网络。带宽和延迟:带宽和延迟:InfiniBand 网络提供高带宽和低延迟的通信,提供更高的吞吐量和更短的传输延迟。NVLink 网络为 GPU 之间提供更高的带宽和更低的延迟,以支持快速数据交换和协同计算。对于通信强度较高的工作负载,对于通信强度较高的工作负载,NVLink 网络的性能优势非常显著。网络的性能优势非常显著。在 HPC 中,Lattice QCD 和 8K 3D FFT 等工作负载获得了显著优势,因为 HPC SDK 和 Magnum IO 中的通信库中设计了多节点扩展功能。NVLink 网络在训练大型语言模型或具有大型嵌入表的推荐系统时
64、也能提供显著的性能提升。图表图表 36 NVLink交换机构建交换机构建 SuperPOD 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 图表图表 37 NVLink网络与网络与 IB 网络对比网络对比 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网
65、 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 23 图表图表 38 NVlink 网络在通信密集任务下性能优势更加明显网络在通信密集任务下性能优势更加明显 资料来源:英伟达THE NVLINK-NETWORK SWITCH:NVIDIAS SWITCH CHIP FOR HIGH COMMUNICATION-BANDWIDTH SUPERPODS,转引自Hotchips官网 (4)NVLink C2C:CPU与 GPU互连,大幅增加了 GPU可用内存容量 2022 年,推出 NVIDIA NVLink-C2C,这是一种超快
66、速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与 NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间实现一致的互连,助力数据中心打造新一代的系统级集成。借助先进的封装技术,NVIDIA NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。NVLink-C2C主要优势包括:高带宽、低延迟、低功耗高密度、支持多种行业标准等。图表图表 39 NVLink-C2C 技术技术 资料来源:英伟达官网 以 GH200 为例,高带宽 NVLink-C2C 上的扩展
67、 GPU 内存功能使 GPU 能够高效地访问所有系统内存。所有 GPU都能通过 GPU-GPU NVLink或 NVLink-C2C访问所有可用的内存资源,包括 LPDDR5X 和 HBM3。推理大型语言模型(LLM)需要大量内存来存储模型权重和推理过程中的中间结果。随着推理批量大小的增加,为满足对 LLM 日益增长的需求,内存需求也随之增加。为了解决内存需求,可以扩展到多个 GPU 或使用CPU 内存来卸载部分模型层。然而,使用 x86 CPU 时,访问系统内存进行张量卸载可能会受到 PCIe 的瓶颈限制。NVIDIA 的 NVLink-C2C 为 Hopper GPU 提供了对 电子行业深
68、度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 24 LPDDR5X 内存的高带宽访问,这显著减少了张量卸载执行时间,使得 LLM 的推理能够以 GPU 的吞吐量进行。根据性能模拟结果,当批量大小为 1 时,配备 HBM3 的GH200 在 LLM 推理性能上提高了 2 倍,因为 GH200 中 HBM3 的 GPU 内存带宽高于H100 PCIe GPU。随着批量大小的增加,推理所需的内存量也在增加。在批量大小为 4时,基于 PCIe 的推理解决方案性能下降,因为 PCIe 成为主要瓶颈,而 GH200 的NVLink-C2C 则能够
69、以高带宽向 H100 GPU 传输数据,相比于 PCIe 的方案提供了 4.5 倍的吞吐量。图表图表 40 GH200 Superchip 芯片结构及芯片结构及 GPU、CPU 之间之间内存访问通道内存访问通道 图表图表 41 NVLink C2C 大幅加快推理速度大幅加快推理速度 资料来源:英伟达官网 资料来源:英伟达官网(5)GB200:NVlink 集大成者,高速互连打造超级集大成者,高速互连打造超级 AI 计算机计算机 GB200支持 NVlink域中 36颗和 72颗 GPU,分别构成 GB200 NVL36 和 GB200 NVL 72机柜。GB200 NVL36/72机柜主要由
70、Computer Tray和 Switch Tray构成。图表图表 42 GB200 NVL72 机柜机柜 资料来源:英伟达,转引自hardwarezone 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 25 图表图表 43 Compute Tray 图表图表 44 Switch Tray 资料来源:英伟达官网 资料来源:英伟达官网 以 NVL72 机柜为例,其包含 18 个 Computer Tray和 9 个 Switch Tray。其中,Computer Tray 包含 2 块 Grace Blackwell 超级芯片
71、,每块超级芯片包含 1 个 Grace CPU 与 2 个Blackwell GPU,CPU与 GPU之间通过 NVLink-Chip-to-Chip(C2C)接口进行互连,该接口提供 900GB/s 的双向带宽。单颗 GPU 配置 192GB HBM3e 内存,单颗 CPU 配置480GB LPDDR5X 内存。通过 NVLink C2C 高速连接,单个 Computer Tray 可提供 1.7 TB 的快速内存,应用程序可以一致地访问统一内存空间。这简化了编程并满足万亿参数 LLM、多模态模型等大容量内存的需求。Switch Tray 即 NVLink 交换机,主要用于构建 GPU 之间
72、高速互连的 NVlink 网络,让GPU 之间能够进行高速通信并且支持 SHARP 网络计算,从而让多个 GPU 之间能够共享更大的内存空间。每个 NVLink Swtich Tray 提供 144 个 100 GB 的 NVLink 端口,因此 9 个 Switch Tray可完全连接 72个 Blackwell GPU 上的 18个 NVLink端口。GB200采用了第五代 NVLink,单个 NVLink 域中连接多达 576 个 GPU,总带宽超过 1 PB/s,快速内存为 240TB,能够实现更高性能的加速计算。图表图表 45 GB200 NVL72 Compute Tray 和和
73、Switch Tray 的结构的结构 资料来源:英伟达,转引自hardwarezone 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 26 图表图表 46 B200 GPU 芯片芯片 图表图表 47 第五代第五代 NVLink交换芯片交换芯片 资料来源:英伟达,转引自hardwarezone 资料来源:英伟达,转引自hardwarezone 2、IB 交换机:构建无损的交换机:构建无损的 RDMA 网络,支持网络,支持 Scale Out 网络互连网络互连 RDMA 可以显著提高传输效率,满足可以显著提高传输效率,满足 AI
74、 网络高吞吐、低延迟网络高吞吐、低延迟等等要求。要求。AI 算力网络流量与传统数据中心流量迥然不同,其具有超大流量、超低时延、零容忍丢包和严格时间同步等特点。传统的传输控制协议/互联网协议需要靠内核发送消息进行网络通信,在数据传输过程中存在较高的数据移动和复制开销,降低了数据传输效率。与之形成对比的 RDMA 协议能够通过网络接口访问内存数据,不经过内核,具有高吞吐、低延迟、无 CPU 占用等优点,可以提升数据传输效率。图表图表 48 AI 网络与传统数据中心网络需求对比网络与传统数据中心网络需求对比 图表图表 49 RDMA 和传统和传统 TCP/IP 比较比较 资料来源:英伟达NVIDIA
75、 Spectrum-X Network Platform Architecture 资料来源:华为官网 图表图表 50 RDMA 相比传统以太网有更高的带宽相比传统以太网有更高的带宽 图表图表 51 RDMA 相比传统以太网有更低的延迟相比传统以太网有更低的延迟 资料来源:英伟达官网 资料来源:英伟达官网 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 27 RDMA 主要包含 3 种协议:InfiniBand(IB)、基于以太网的 RDMA(RoCE)和基于TPC/IP 协议栈的 RDMA(iWARP)。IB:专为高性能计算
76、从链路层到传输层定制了全新的架构,具备高带宽、低延迟和无损的特征。不过,IB 体系独立封闭,需要采用专用的交换机、网卡、线缆等,不能和现有的以太网设备兼容,采购成本相对高昂。RoCE:RoCE 是基于以太网协议栈进行拓展,能够支持 RDMA 操作。RoCE 当前有 2个主要版本:RoCE v1和 RoCE v2。RoCE v1不能支持路由,也没有拥塞控制机制,难以在数据中心中使用。RoCE v2是 RoCE v1的改良版本,支持路由并定义了拥塞控制机制。RoCE 在性能上较 IB 有所降低,但是其性价比更高,在一些超大规模数据中心商用部署。不过,RoCE v2 标准是 UDP 协议,虽然其效率
77、比较高,但不具备类似 TCP 协议的重传机制等来保障可靠传输,一旦出现丢包,必须依靠上层应用发现后再做重传,这样会极大降低 RDMA的传输效率。iWARP:该技术是基于 TCP 协议,在有损网络场景相比 IB 和 RoCE v2具有更好的可靠性,但是大量 TCP连接会耗费很多的内存资源,且其复制的流控制会导致性能问题,导致其并未能大规模推广使用。图表图表 52 不同不同 RDMA 协议栈协议栈 资料来源:唐宏等 生成式大模型承载网络架构与关键技术探索 总之,IB 可以提供卓越的性能、低延迟和可扩展性,在高性能计算领域表现出色并占据较大优势。相比之下,RoCE由于更容易利用现有以太网基础设施,具
78、有较低的成本,受到科技巨头们的青睐。图表图表 53 IB、iWARP 和和 RoCE 对比对比 InfiniBand iWARP RoCE 性能 最好 稍差(受 TCP 影响)与 InfiniBand相当 成本 高 中 低 稳定性 好 差 较好 交换机 IB交换机 以太网交换机 以太网交换机 资料来源:华为官网,华创证券 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 28 三、三、AI 产业产业群雄并起,群雄并起,AI 自研自研后劲十足后劲十足 英伟达一家独大,产业巨头并起而抗之英伟达一家独大,产业巨头并起而抗之。AI 本质
79、上是一个并行计算的问题,提升单个节点的算力及构建高速的互连系统是尤为关键。英伟达由于其早期布局 GPU,及时地抓住了此轮以深度学习为技术代表的 AI 技术发展浪潮,其单个 GPU 算力不断提升,并开发了 NVLink、IB 交换机等配套的产品,以及 CUDA 等软件生态的持续完善,促使大规模 AI 算力按照黄氏定律的趋势快速演进,凭借着其在 GPU、网络和系统、软件三个方面的布局,在 AI产业链中占据了主导地位。图表图表 54 英伟达在英伟达在 GPU、CUDA和和 Networking 构建构建深厚的深厚的护城河护城河 资料来源:Fabricated Knowledge 随着 ChatGPT
80、 掀起的大模型 AI 浪潮兴起,AI 算力需求大幅跃升,全球科技龙头均不希望在 AI 竞赛中处于劣势地位,甚至想在此轮 AI 浪潮中拔得头筹,进而在此轮 AI 浪潮中获取更大的利益,促使英伟达 AI 算力卡呈现供不应求的局面。面对紧缺的 AI 算力产品供应、高昂的资本开支以及尚未见顶的 AI 算力需求,云厂商未雨绸缪、纷纷想把握住 AI 算力的主动权,进而在 AI 浪潮中取得更大的优势。以谷歌、博通、亚马逊、AMD、微软、Meta、Marvell 等为首的北美科技巨头企业,试图在 AI 芯片、高速互连领域逐个对英伟达体系进行突破,非英伟达体系的 AI 算力产业正在崛起,未来有望取得一定的市场份
81、额。(一)(一)AI 自研芯片自研芯片:AI 算力成为核心要素,科技巨头追求自主可控算力成为核心要素,科技巨头追求自主可控 AI 自研芯片众望所归,北美巨头自研芯片众望所归,北美巨头加码投入加码投入。ChatGPT 掀起新一轮的 AI 发展浪潮,大模型的性能遵守 Scaling law法则即大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,AI 算力成为此轮 AI 发展的核心驱动力。北美科技巨头纷纷加码AI 基础设施,面临着资本开支快速增长带来的财务压力,但又表示当前不投 AI 算力的风险大于过度投资 AI 算力的风险,北美巨头如不采取措施可能限于两难境地,AI 自研 电子行
82、业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 29 芯片或有望成为破局之道。图表图表 55 北美科技厂商资本开支快速增长北美科技厂商资本开支快速增长(亿美元)(亿美元)资料来源:Bloomberg,华创证券 AI 自研芯片自研芯片优势明显优势明显,北美科技巨头陆续推出自研产品北美科技巨头陆续推出自研产品。AI 自研芯片应需而生:(1)降本增效:降本增效:自研 AI 芯片具有更高的性价比,可以在一定程度上减少资本开支,而且能够让科技巨头公司相对于英伟达、AMD 等 GPU 厂商拥有一定的议价权。(2)供应安全:)供应安全:AI自研芯
83、片开拓了新的算力供应渠道,可以一定程度上降低 GPU 芯片供应受限的风险。(3)自主可控:)自主可控:自研 AI 芯片可以更加灵活地控制技术路线和发展节奏,避免受到供应商或者合作伙伴的限制和影响。(4)增强竞争优势增强竞争优势:科技巨头可以通过自研 AI 芯片打造自己的核心竞争力,从而提高其在 AI 领域的话语权和影响力。在规模及成本等多种因素考量下,北美云厂商 Google、AWS、Microsoft、Meta 等有逐年扩大采用自研ASIC 趋势,先后推出自研 AI 芯片,未来几年自研 AI 芯片有望迎来快速发展的黄金期。图表图表 56 ASIC 受到云厂商的青睐受到云厂商的青睐 灵活度灵活
84、度 计算能力计算能力 能耗能耗 主要玩家主要玩家 GPU 通用型 高 中 英伟达、AMD、海光信息等 FPGA 半定制化 高 高 赛灵思、英特尔等 ASIC 定制化 高 低 谷歌、英特尔、华为、寒武纪等 资料来源:Trendforce,华创证券 图表图表 57 北美云厂商纷纷推出自研北美云厂商纷纷推出自研 AI 芯片芯片 Microsoft Google Amazon Meta Chip Maia 100 TPU v5e Inferentia2 MTIA v1 Launch Date November,2023 August,2023 Early 2023 2025 IP ARM ARM AR
85、M RISC-V Process Technology TSMC 5nm TSMC 5nm TSMC 7nm TSMC 7nm Transistor Count 105 billion INT8 393 TOPS 102.4 TOPS-20%0%20%40%60%80%100%120%01002003004005006002016Q12016Q22016Q32016Q42017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q42021Q12021Q22021Q3
86、2021Q42022Q12022Q22022Q32022Q42023Q12023Q22023Q32023Q42024Q12024Q2AmazonMicrosoftGoogleMetaYoY 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 30 FP16 51.2 TFLOPS BF16 197 TFLOPS Memory LPDDR5 TDP 25W Main Packaging Technology CoWoS CoWoS CoWoS-S 2D Collaborating Partners Global Unichip Co
87、rp Broadcom Alchip Technologies Andes Technology Application Training/lnference lnference lnference Training/lnference LLM GPT-3.5、GPT-4 BERT、PaLM、LaMDA Titan FM Llama、Llama2 资料来源:Trendforce,华创证券 图表图表 58 定制化定制化 AI 芯片满足客户三大需求芯片满足客户三大需求 资料来源:BroadcomEnabling AI Infrastructure 全球两大全球两大 AI 定制芯片玩家对其定制定制芯
88、片玩家对其定制 AI 芯片业务展望乐观。芯片业务展望乐观。博通在 2024 年 9 月 5 日的业绩说明会上表示,FY2024Q3 其定制 AI 加速器业务同比增长 3.5 倍,对 AI 业务增长保持乐观,并将 FY2024 年 AI 营收指引从先前的 110 亿美元调整到 120 亿美元,预计FY2025 AI 业务将保持强劲增长;长期来看,公司认为其超大规模客户有更多的 AI 算力需求,有望加快 AI 芯片地部署。Marvell 在 2024 年 4 月 Accelerated Infrastructure for the AI Era上预计 FY2025 其 Custom Compute
89、 和 Connectivity 业务营收有望达到 15亿美金;目前正在为 2 家客户定制 AI芯片;表示 2023年全球 Accelerated custom compute 市场规模为 66 亿美元,预计 2028 年将达到 429 亿美元;在 2024 年 8 月 29 日业绩说明会上表示,AI 定制芯片进展顺利,2 颗芯片已经进入量产;鉴于公司 AI 业务在FY2025H1 增长强劲,FY2025H2 有望加速增长,预计 FY2025 年 AI 业务收入将超过公司此前在 AI活动中的指引,并预计 AI定制项目将继续增加。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询
90、业务资格批文号:证监许可(2009)1210号 31 图表图表 59 Marvell预计预计 2028 年全球年全球 Accelerated custom compute 市场规模将达到市场规模将达到 429 亿亿美元美元 资料来源:MarvellAccelerated Infrastructure for the AI Era 海内外科技巨头扩大自研海内外科技巨头扩大自研 ASIC,ASIC 服务器占比逐年提高。服务器占比逐年提高。据 Trendforce数据,北美云厂商亚马逊、Meta 等持续扩大自研 ASIC,中国本土企业阿里巴巴、百度、华为等积极布局自主 ASIC 方案,促使 ASIC
91、 服务器占整体 AI 服务器的占比在 2024 年预计提升至 25%左右。图表图表 60 搭载搭载 ASIC 自研芯片自研芯片 AI Server 出货占比逐步走高出货占比逐步走高 资料来源:Trendforce公众号,华创证券(二)(二)UALink:UALink打造开放高速互连标准,旨在打破英伟达打造开放高速互连标准,旨在打破英伟达 NVlink 垄断垄断 科技巨头组团科技巨头组团打造打造 UALink,旨在旨在取取代代英伟达英伟达 NVlink。2024 年 5 月,AMD、博通、思科、Google、惠普、英特尔、Meta 和微软宣布他们已经为 AI 数据中心制定了新的互连技术 UALi
92、nk(Ultra Accelerator Link),建立 AI 加速器间高速低延迟的开放通信标准,以打破英伟达 NVlink的垄断。UALink 将通过以下方式提高性能:低延迟和高带宽:低延迟和高带宽:通过 Infinity Fabric 协议,UALink 将实现低延迟和高带宽的互连,适用于 AI和 ML集群中的高性能计算需求。大规模扩展:大规模扩展:UALink 1.0 版规范将允许在 AI容器组中连接不超过 1024个加速器,67.6%65.5%63.6%5.7%7.3%8.1%3.1%3.0%2.9%23.6%24.1%25.3%0%20%40%60%80%100%120%20222
93、0232024FNvidiaAMD(含Xilinx)Intel(含Altela)Others 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 32 支持在容器组中挂载到加速器(例如 GPU)的内存之间进行直接加载和存储。开放性和兼容性:开放性和兼容性:UALink 联盟旨在创建一个开放的行业标准,允许多家公司为整个生态系统增加价值,从而避免技术垄断。图表图表 61 UAlink 创建创建 Scale Up 网络网络 资料来源:nextplatform官网 UALink 的最大潜在受益者可能包括微软、的最大潜在受益者可能包括微软
94、、亚马逊、亚马逊、谷歌和谷歌和 Meta 等科技巨头。等科技巨头。这些公司已经投入大量资金购买英伟达 GPU 以支持云服务和 AI 模型训练、推理,并期望摆脱对英伟达的依赖,已经陆续推出 AI 自研芯片。UALink 提供了一条复制 NVLink 和NVSwitch 功能的途径,可以促进彼此之间进行合作与成果共享,从而有望加快自研 AI芯片的进度,逐步降低对英伟达的依赖程度。(三)(三)以太网以太网:以太网优势日益凸显,加速广泛部署于以太网优势日益凸显,加速广泛部署于 AI 算力中心算力中心 以太网以太网未来未来有望成为有望成为 AI 网络网络的主流的主流方案,超以太网联盟和英伟达方案,超以太
95、网联盟和英伟达 Spectrum-X 两大阵两大阵营初步形成营初步形成。以太网是 IP 网络最成熟和主流的技术,被广泛应用于园区网络、数据中心和云计算环境以及广域网等场景,具备开放的生态系统,使用标准的以太网设备、线缆和接口卡等,具备性价比高,后期维护成本低等优势,然而其在延时、带宽等方面逊于 IB 网络。不过,通过专门针对 AI 网络进行优化,以太网能够满足 AI 网络的严格要求,并且能够支持更大的域,头部玩家正在使用以太网来构建 AI 基础设施,如:AWS 将以太网用于其生成式 AI 基础设施,为配备 Trainium2 GPU 的 Ultracluster2(以太网)配备了 60K+GP
96、U 规模。Meta 正在使用以太网构建其 GenAI 基础设施,其中包含一个 24K GPU 集群。字节跳动已使用以太网部署了一个拥有 10K+GPU 的 AI 集群。未来随着 AI 算力的快速增长,性价比更高、生态开放的以太网有望成为主流的 AI 网络方案,目前超以太网联盟(UEC)和英伟达 Spectrum-X平台两大阵营竞相发力。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 33 图表图表 62 AI 数据中心与传统的数据中心与传统的 CPU 数据中心所面临场景有所不同数据中心所面临场景有所不同 资料来源:Arista
97、 Arista Data-Driven Solutions(2024M7)图表图表 63 以太网已经被用于部署大规模以太网已经被用于部署大规模 AI 集群集群 图表图表 64 AI 头部玩家纷纷布局基于以太网的头部玩家纷纷布局基于以太网的 AI 网络网络 资料来源:BroadcomEnabling AI Infrastructure 资料来源:BroadcomEnabling AI Infrastructure 新一代 AI 以太网技术不仅保留了成本优势,还具备灵活性和开放性,并利用强大的以太网生态系统,有望成为 AI 时代的全新网络架构。AI 以太网技术通过动态路由、智能调度和高级拥塞控制等
98、创新,满足了 AI 应用对高带宽、低延迟和高可靠性的严苛要求,重塑了其在现代数据中心中的价值。随着网络设备商、AI 芯片制造商以及互联网企业对以太网技术的持续投入,各种 AI 以太网技术百花齐放。IDC 预测,生成式 AI 数据中心以太网交换机市场将以 70%的年复合增长率呈指数级增长,将从 2023 年的 6.4 亿美元增长到 2028年的 90.7亿美元。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 34 图表图表 65 全球生成式全球生成式 AI 数据中心以太网交换机市场规模预计迎来高速数据中心以太网交换机市场规模预计
99、迎来高速发展发展 资料来源:IDC 超以太网联盟由 AMD、Arista、博通、思科等硬件厂商以及微软、Meta 等云厂商牵头成立,利用以太网的生态优势,致力于打造满足 AI 和 HPC 网络需求的新一代标准用于取代 RoCE 协议超以太网联盟,创建一个“基于以太网的完整通信堆栈架构”,提高网络吞吐量、降低延迟,增强网络的可靠性和稳定性,为人工智能和高性能计算等领域的发展提供更加坚实的网络基础,同时保留以太网/IP 生态系统的优势。UEC 的目标是提供一个完整的通信协议栈,解决跨越多个协议层的技术问题,并提供易于配置和管理的解决方案。UEC利用其成员在大规模部署 AI和 HPC工作负载方面的丰
100、富经验,提供了一个全面且令人信服的解决方案。图表图表 66 超以太网联盟成员众多,聚集了超以太网联盟成员众多,聚集了 AI 产业头部玩产业头部玩家家 图表图表 67 UEC 相比相比 RDMA 有多个方面有多个方面进行了优化进行了优化 资料来源:techpowerup 资料来源:Broadcom、转引自gaitpu 英伟达 Spectrum-X 使用 NVIDIA BlueField-3 SuperNIC 网卡与 NVIDIA Spectrum-4 交换机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流量),在拥塞控制、无损网络和负载均衡方面进行了优化,使得
101、其能支持加速计算的严格要求,具体如下:基于遥测的拥塞控制基于遥测的拥塞控制:通过将高频遥测探针与流量测量相结合,Spectrum-X 拥塞控制可确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的 AI 工作负载 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 35 可以同时在共享基础设施上运行,而不会对彼此性能产生负面影响。无损网络:无损网络:Spectrum-X 将配置网络实现无损,从而确保不丢弃数据包并最大限度地降低尾延迟。尾延迟是指一组并行任务中速度最慢的任务所经历的延迟,这将决定操作的整体完成时间。动态负
102、载均衡动态负载均衡:Spectrum-X 使用细粒度动态路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。动态路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或 flowlet 路由的陷阱,而无需深度缓冲区或突发吸收。由于负载均衡意味着数据包可以乱序地到达目的地,NVIDIA BlueField-3 SuperNIC 则确保重新排序数据包,并将其放置在主机内存中,从而对应用程序透明。图表图表 68 Spectrum-X平台相对于传统以太网平台相对于传统以太网的表现有大幅提升的表现有大幅提升 资料来源:英伟达、转引自txrjy 图表图表 69
103、 英伟达计划英伟达计划 Spectrum-X平台用于构建百万级别平台用于构建百万级别 GPU 的的 AI 网络网络 资料来源:英伟达官网 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 36 随着 AI 产业迅速发展,AI 算力、运力需求大幅提升,数据网络需要具备更强的稳定性、高性能、高可控以及低成本等特性,传统品牌交换机不同设备厂商互通性偏低,网络运维难度大,管控不能统一,一旦发生错误也很难实现快速定位,并且不利于未来的设备升级和功能扩展。白盒交换机、裸机交换机以更低成本、更高开放性等优势,受到众多大型云厂商的青睐,未来数据
104、中心交换机有望进一步白盒化、裸机化。其中,裸机交换机仅提供裸机交换机,白盒交换机提供裸机交换机和操作系统。裸机交换机相比白盒交换机更有成本优势,这一优势根本上是由售后服务剥离所带来的,适用于海外数据中心龙头厂商如:亚马逊、谷歌、Meta等。图表图表 70 不同类型交换机对比不同类型交换机对比 对比对比 品牌交换机品牌交换机 白盒交换机白盒交换机 裸机交换机裸机交换机 定义 包含硬件、软件和操作系统,且 NOS 对用户封闭 包含硬件和基本网络操作 系统(预安装 NOS)裸机交换机 产品价格 高 中 低 硬件组成 品牌组件 商用元器件(含 ASIC)商用元器件(含 ASIC)网络操作系统 品牌交换
105、软件 预装厂商或第三方 0S软件 无 是否可编程 否 是 是 商业模式 整机出售 整机出售(可贴牌)需客户自研或另购软件 典型厂商代表 Cisco、华为、H3C Arista、星网锐捷、Jumniper Accton 适用场景 用于多种网络环境,如企业、数据中心、运营商等 主要用于大型云数据中心等特定场景 资料来源:华经情报网,亿渡数据2022年中国交换机行业短报告,华创证券 白盒交换机、白盒交换机、ODM 直销直销交换机交换机销售额销售额快速增长,份额仍在提升。快速增长,份额仍在提升。IDC 数据显示数据显示2024Q2 年全球以太网交换机市场规模达到 102 亿美元,同比-14.1%,环比
106、+15.4%。其中,数据中心部分市场收入同比+7.6%,环比+15.8%。白盒交换机代表厂商 Arista 以太网交换机 2024Q2 收入(其中 90.2%来自数据中心)同比+12.4%,环比+7.0%,使该公司 2024Q2 的市场份额达到 13.5%,较 2023 年全年份额 11.1%有所提升;其在高速交换机的市场份额逐步提高,后续或有望超过传统交换机龙头 Cisco。ODM 直销交换机2024Q2 收入同比+66.9%,占数据中心细分市场收入的 19.1%,较 2023 年全年份额14.3%有所提升。图表图表 71 Arista、ODM 直销交换机在全球以太网交换机中占比持续提升直销
107、交换机在全球以太网交换机中占比持续提升 资料来源:IDC 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 37 图表图表 72 Arista 高速交换机市场份额高速交换机市场份额逐步逼近逐步逼近 Cisco 图表图表 73 2023 年年 Arista 高速交换机端口出货量高速交换机端口出货量超过超过Cisco 资料来源:Crehan Research Data Center Switch Market Share Report 4Q23,转引自Arista Investor Presentation(2024.5),华创证券
108、 资料来源:Crehan Research Data Center Switch Market Share Report 4Q23,转引自Arista Investor Presentation(2024.5),华创证券 注:图中为出货量份额 0.0%10.0%20.0%30.0%40.0%50.0%60.0%70.0%80.0%90.0%2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023AristaCisco0.0%10.0%20.0%30.0%40.0%50.0%60.0%70.0%80.0%2012 2013 2014
109、2015 2016 2017 2018 2019 2020 2021 2022 2023AristaCisco 电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 38 四、四、相关公司相关公司(一)(一)沪电股份:沪电股份:AI 业务加速放量,业务加速放量,800G交换机有望与交换机有望与 AI 服务器共振向上服务器共振向上 AI 服务器仍在持续迭代,芯片升级有望带动 PCB 制程规格同步升级,ASP 有望稳步提升。在网络市场,800G 交换机已经开始放量渗透,公司产品也已实现量产,高端产品放量有望带动数通板业务毛利率持续提升。
110、盈利预测及投资评级盈利预测及投资评级:公司深耕北美客户,有望充分享受算力市场高增红利,考虑 24年 800G 交换机开启渗透,我们预计 24-26年盈利预测为 26.39/35.56/39.77亿元。当前向下有估值保护,向上业绩有机会超预期,AI 应用创新有望带动板块估值提升,考虑同行可比公司中际旭创、深南电路估值及自身历史估值中枢,给予 25 年 30X 目标估值,目标价维持为 55.8元,维持“强推”评级。(二)(二)生益电子生益电子:AI 服务器大批量交付,服务器大批量交付,800G交交换机产品有望放量换机产品有望放量 AI 服务器:服务器:公司已经完成多个客户的项目认证,24H1 实现
111、了批量交付;正在积极配合客户进行下一代产品的开发;AI 服务器客户亚马逊 24Q2 业绩交流会表示 AI 自研芯片需求旺盛。800G交换机:交换机:公司已经获得了多个客户认证,并在 24H1实现了小批量交付,未来随着 800G产品放量,有望推动公司业绩加速上行。盈利预测及投资评级盈利预测及投资评级:公司具备一流技术、产品和客户,有望深度受益于此轮 AI 产业的高速发展。公司 Q2业绩实现同环比大幅改善,考虑公司 AI服务器及交换机业务的增长,我们预计公司 24-26年盈利预测 1.86/5.45/8.16 亿元。考虑公司处在业绩拐点的高速增长期,伴随需求端快速放量,高经营杠杆下盈利弹性有望持续
112、超预期,维持“推荐”评级。(三)(三)胜宏科技胜宏科技:前瞻布局前瞻布局 HDI 领域,深度受益于领域,深度受益于 AI 服务器用服务器用 HDI 需求提升需求提升 公司在服务器 PCB 领域公司前瞻布局,拥有客户、产品、制造能力(HDI)和海外布局等优势:(1)客户方面:公司与头部玩家英伟达、AMD、微软、思科等达成合作关系;(2)产品方面:公司 AI 数据中心 5 阶、6 阶 HDI 以及 28 层加速卡产品顺利量产;(3)技术实力:公司前瞻布局 HDI 领域,2019 年 HDI 一期工厂投产,2023 年实现 14 层Anylayer HDI板量产,目前实现 6 阶 HDI量产。盈利预
113、测及投资评级盈利预测及投资评级:公司 AI 多业务条线进展顺利,我们预计 24-26 年盈利预测12.54/20.09/27.02 亿元,参考可比公司沪电股份、深南电路、世运电路,给予公司 25 年20X目标 PE,目标价 46.6元,维持“强推”评级。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 39 五、五、风险提示风险提示 AI 产业发展不及预期、行业竞争格局加剧、产品导入不及预期、新技术迭代风险、原材料价格大幅上涨。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009
114、)1210号 40 电子组团队介绍电子组团队介绍 副所长、前沿科技研究中心负责人:耿琛副所长、前沿科技研究中心负责人:耿琛 美国新墨西哥大学计算机硕士。曾任新加坡国立大计算机学院研究员,中投证券、中泰证券研究所电子分析师。2019年带领团队获得新财富电子行业第五名,2016 年新财富电子行业第五名团队核心成员,2017 年加入华创证券研究所。联席首席研究员:岳阳联席首席研究员:岳阳 上海交通大学硕士。2019年加入华创证券研究所。高级分析师:熊翊宇高级分析师:熊翊宇 复旦大学金融学硕士,3年买方研究经验,曾任西南证券电子行业研究员,2020年加入华创证券研究所。研究员:吴鑫研究员:吴鑫 复旦大
115、学资产评估硕士,1 年买方研究经验。2022年加入华创证券研究所。研究员:高远研究员:高远 西南财经大学硕士。2022年加入华创证券研究所。研究员:姚德昌研究员:姚德昌 同济大学硕士。2021 年加入华创证券研究所。助理研究员:张文瑶助理研究员:张文瑶 哈尔滨工业大学硕士。2023 年加入华创证券研究所。助理研究员:蔡坤助理研究员:蔡坤 香港浸会大学硕士。2023年加入华创证券研究所。助理研究员:卢依雯助理研究员:卢依雯 北京大学金融硕士。2024年加入华创证券研究所。助理研究员:张雅轩助理研究员:张雅轩 美国康奈尔大学硕士。2024 年加入华创证券研究所。研究员:董邦宜研究员:董邦宜 北京交
116、通大学计算机硕士,3年 AI算法开发经验,曾任开源证券电子行业研究员。2024 年加入华创证券研究所。电子行业深度研究报告电子行业深度研究报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 42 华创行业公司投资评级体系华创行业公司投资评级体系 基准指数说明:基准指数说明:A股市场基准为沪深 300指数,香港市场基准为恒生指数,美国市场基准为标普 500/纳斯达克指数。公司投资评级说明:公司投资评级说明:强推:预期未来 6个月内超越基准指数 20%以上;推荐:预期未来 6个月内超越基准指数 10%20%;中性:预期未来 6个月内相对基准指数变动幅度在-10%10%之
117、间;回避:预期未来 6个月内相对基准指数跌幅在 10%20%之间。行业投资评级说明:行业投资评级说明:推荐:预期未来 3-6个月内该行业指数涨幅超过基准指数 5%以上;中性:预期未来 3-6个月内该行业指数变动幅度相对基准指数-5%5%;回避:预期未来 3-6个月内该行业指数跌幅超过基准指数 5%以上。分析师声分析师声明明 每位负责撰写本研究报告全部或部分内容的分析师在此作以下声明:分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断;分析师对任何其他券商发布的所有可能存在雷同的研究报告不负有任何直接或者间接的可能责任。免责声明免责声明 本
118、报告仅供华创证券有限责任公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告所载资料的来源被认为是可靠的,但本公司不保证其准确性或完整性。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司在知晓范围内履行披露义务。报告中的内容和意见仅供参考,并不构成本公司对具体证券买卖的出价或询价。本报告所载信息不构成对所涉及证券的个人投资建议,也未考虑到个别客户特殊的投资目标、财务状况或需求。客户应考虑本报告中的任何意见或建议是否符合其特定状况,自主作出投资决策并自行承担投资风险,任何形式
119、的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中提及的投资价格和价值以及这些投资带来的预期收入可能会波动。本报告版权仅为本公司所有,本公司对本报告保留一切权利。未经本公司事先书面许可,任何机构和个人不得以任何形式翻版、复制、发表、转发或引用本报告的任何部分。如征得本公司许可进行引用、刊发的,需在允许的范围内使用,并注明出处为“华创证券研究”,且不得对本报告进行任何有悖原意的引用、删节和修改。证券市场是一个风险无时不在的市场,请您务必对盈亏风险有清醒的认识,认真考虑是否进行证券交易。市场有风险,投资需谨慎。华创证券研究所华创证券研究所 北京总部北京总部 广深分部广深分部 上海分部上海分部 地址:北京市西城区锦什坊街 26 号 恒奥中心 C 座 3A 地址:深圳市福田区香梅路 1061 号 中投国际商务中心 A 座 19 楼 地址:上海市浦东新区花园石桥路 33 号 花旗大厦 12 层 邮编:100033 邮编:518034 邮编:200120 传真:010-66500801 传真:0755-82027731 传真:021-20572500 会议室:010-66500900 会议室:0755-82828562 会议室:021-20572522