【东吴证券】电子行业点评报告：百万Token时代来临，Rubin CPX重塑推理架构与产业链-250910-三个皮匠报告

1、证券研究报告行业点评报告电子东吴证券研究所东吴证券研究所 1/2 请务必阅读正文之后的免责声明部分请务必阅读正文之后的免责声明部分电子行业点评报告百万百万 Token 时代来临，时代来临，Rubin CPX 重塑推理重塑推理架构与产业链架构与产业链 2025 年年 09 月月 10 日日证券分析师证券分析师陈海进陈海进执业证书：S0600525020001 研究助理研究助理解承解承堯执业证书：S0600125020001 行业走势行业走势相关研究相关研究端侧 AI 散热机遇，微泵液冷关注艾为/南芯 2025-09-02 苹果秋季发布会前瞻：AI 战略落地、iPhone 硬件

2、自主化与可穿戴健康升级 2025-08-31 增持（维持）Table_Tag Table_Summary 投投资要点资要点 Rubin CPX 切入百万切入百万 Token 痛点，重塑推理架构基础。痛点，重塑推理架构基础。过去一年，随着生成式 AI 进入规模化落地阶段，行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成，还是多模态长视频生成，均需要模型在极大输入序列下保持推理准确性与计算效率。然而，现有GPU 在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余，导致算力利用率不足。英伟达于 2025 年 9 月发布的 Rubin CPX，正是为解决这一痛点而生，标志着 NVIDI

3、A 将推理场景的架构优化推向新高度。Rubin CPX 是一款专为“百万级上下文”推理场景设计的专用加速处理器（Contextual Processing eXtension）。其设计目标是通过硬件与架构优化，提升对超长上下文场景的吞吐与能效，并在机架级系统，如 Vera Rubin NVL144 CPX 中与 Rubin GPU 及 Vera CPU 协同构成面向大规模推理的整体平台。上下文与生成任务分工，实现算力利用率与效率提升上下文与生成任务分工，实现算力利用率与效率提升。在大模型推理过程中，可大体分为两类任务：一是“上下文分析”，即对超长输入序列进行编码、筛选与压缩，以便后续生成环节调

4、用；二是“生成任务”，即基于上下文信息进行逐 Token 的预测输出。二者在计算负载和性能需求上差异显著：上下文分析更依赖并行化处理和带宽利用，而生成任务则要求对计算延迟与单步性能进行极致优化。英伟达 Rubin CPX 定位为“上下文处理加速器”，负责对海量输入做高通量注意力与前置计算；而 Rubin 系列通用 GPU 则负责生成/输出阶段的持续带宽密集型任务。官方展示的 Vera Rubin NVL144 CPX 机架中，144 个 Rubin CPX（context）配合 144 个 Rubin GPU（generation）与 36 个 Vera CPU（调度/通用），共同提供完整服务

5、能力，进而实现资源的高效利用，推理成本降低以及推理响应加速。Rubin CPX 30PFLOPS，机架，机架 8EFLOPS 算力算力，2026 年落地路径明确年落地路径明确。从技术参数看，Rubin CPX 单卡提供约 30 PFLOPS（NVFP4 精度）的算力，并搭载 128GB GDDR7 显存，同时内置视频编解码能力，可满足多模态场景需求。官方展示的 Vera Rubin NVL144 CPX 系统，由 144 张 CPX、144 张 Rubin GPU 和 36 个 Vera CPU 共同构成，其整体性能指标达到 8 ExaFLOPS 算力、100TB 高速内存与 1.7PB/s

6、内存带宽，相比上一代 GB300 NVL72 系统在上下文处理效率上实现数倍提升。根据公司规划，Rubin CPX 预计将在 2026 年底上市，与 Rubin GPU 与 Dynamo、TensorRT-LLM 等软件工具链一体化部署。海外算力链受益加速，长上下文推理带来新增长动能海外算力链受益加速，长上下文推理带来新增长动能。从产业角度来看，Rubin CPX 的推出不仅是 NVIDIA 产品线的升级，更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万 Token 推理与长视频生成成为 AI 应用的标配需求，硬件和软件的耦合度显著

【东吴证券】电子行业点评报告：百万Token时代来临，Rubin CPX重塑推理架构与产业链-250910（2页）.pdf

相关报告