《【公司研究】寒武纪-“端~边~云”全布局的AI芯片明星公司-20200708[21页].pdf》由会员分享,可在线阅读,更多相关《【公司研究】寒武纪-“端~边~云”全布局的AI芯片明星公司-20200708[21页].pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、1 1 上 市 公 司 公 司 研 究 / 新 股 分 析 证 券 研 究 报 告 电子 2020 年 07 月 08 日 寒武纪 (688256) “端-边-云”全布局的 AI 芯片明星公司 发行上市资料: 发行价格(元) 64.4 发行股数(万股) 4010 发行日期 2020-07-08 发行方式 战略配售,网下询价,上网 定价 主承销商 中信证券股份有限公司, 中国国际金融股份有限公 司,国泰君安证券股份有 限公司,安信证券股份有 限公司 上市日期 2020-07-15 *首日上市股数-万股 投资要点: 寒武纪是中国人工智能 ASIC 芯片设计公司,产品线按照应用场景可以分为“端-边-
2、云” 三大类,其中“端”主要以 IP 授权为主要盈利模式, “边”和“云”以芯片销售和 IDC 系 统集成为主要盈利模式。 (1)端:目前寒武纪已经共计推出三代 IP(1A/1H/1M) ,主要 客户有华为海思、展讯、星宸等公司;IP 授权收入为 6877 万元,占 2019 年总营收 15%, 其中来自华为的收入占全部 IP 授权收入的 93%, 华为麒麟 970/麒麟 980 手机处理器分别 应用了寒武纪 1A 和 1H 两款 IP;IP 收费分为“固定费用”和“计件费用”两部分,其中 计件费用 IP 单价大约为 0.641.09 元/个。 (2)边:目前推出的边缘计算 AI 加速卡为思
3、元 220,主要客户群体为互联网企业、IOT 企业、智能交通企业等,预计 2020 年开始产 生收入。 (3)云:目前寒武纪已经推出用于云端数据中心“推理”场景的智能加速卡思元 100 和思元 270,预计 2021 年寒武纪可以推出用于“训练”场景的产品思元 290,单价 大约 1.7 万元/个;寒武纪主要有两种盈利模式,向服务器厂商等直接销售芯片+承建政府 部门 AI 智能计算中心(IDC 系统集成) ,两种模式分别占 2019 年总营收的 18%和 67%。 人工智能芯片主要分为“训练(Training) ”芯片和“推理(Inference) ”芯片。目前用 于人工智能深度/机器学习的芯
4、片主要有 GPU、FPGA、ASIC 三类芯片。在不同的应用场 景之下,已经形成了不同的 AI 芯片竞争格局: (1)在云和数据中心 AI 芯片市场, “训练” 和“推理”两个环节都是英伟达 GPU 一家独大,几乎占据 90%以上份额。 (2)在设备端 和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现:手 机以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防 IPC 领域英伟达暂时领先。 我们认为寒武纪的中短期机会主要在于“端-边”推理芯片市场,英伟达在云和数据中心训 练市场已经通过完整的深度学习软件 SDK 建立起强大的生态,形成坚固的护城河暂时难 以撼动;寒武纪
5、破局的关键在于其后续的技术升级能否使得 ASIC 芯片的性价比大幅领先 GPU 以及同行业 ASIC 竞争对手。 运用 PS 估值法,2020 年合理市值 301 亿元。可比公司当前 PS(TTM)均值 45 倍,我 们预计寒武纪 2020-2022 年收营业总收入为 6.7/9.4/13.4 亿元,因此我们认为寒武纪今 年合理市值为 301 亿元,对应股价为 75.3 元。 新股溢价:根据历史数据统计,上市前 30 日新股具有明显溢价特征,按照可比行业/公司 统计:溢价率在 53%71%,因此公司上市初期有可能价格波动区间为 115.2-128.8 元。 风险提示:人员扩张过快、端和边 AI
6、 应用场景需求不旺、新进入者参与竞争风险。 特别提示:本报告所预测合理股价区间不是上市初期价格表现,而是现有市场环境基本保 持不变情况下的合理价格区间。 基础数据(发行前): 2020 年 03 月 31 日 每股净资产(元) 12.1 总股本/流通 A 股(百万) 360/- 流通 B 股/H 股(百万) -/- 证券分析师 骆思远 A0230517100006 MarkL 刘洋 A0230513050006 蒲梦洁 A0230519110002 研究支持 蒲梦洁 A0230519110002 联系人 蒲梦洁 (8621)23297818转 盈利预测 2019 2020Q1 2020E 20
7、21E 2022E 营业总收入(百万元) 444 12 670 935 1,344 同比增长率(%) 279.4 -18.9 50.8 39.7 43.7 归母净利润(百万元) -1,179 -108 -120 -76 97 同比增长率(%) - - - - - 每股收益(元/股) -3.28 -0.30 -0.30 -0.19 0.24 毛利率(%) 68.2 69.3 64.4 63.8 63.1 ROE(%) -27.1 -2.5 -1.8 -1.1 1.4 市盈率 - - - - 财务指标 2017 2018 2019 流动比率 1.1 1.2 18.7 资产负债率 94.4 83.2
8、 6.7 应收账款周转率 2.1 6.3 9.1 存货周转率 0.1 0.1 5.0 请务必仔细阅读正文之后的各项信息披露与声明 2 2 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 2 页 共 21 页 简单金融 成就梦想 1、“端-边-云”全布局的 AI 芯片明星公司 . 4 2、芯片性价比是寒武纪“破局”的关键 . 6 2.1、云上 AI 芯片英伟达一家独大,边端推理芯片格局未定 . 6 2.2、基于 CUDA 和深度学习 SDK 的生态是英伟达最关键的护城河 . 12 2.3、寒武纪破局的关键是芯片本身性价比 . 13 3、智能计算中心或可帮助寒武纪获得规模并建立生态 .
9、14 4、盈利预测和估值 . 16 目录 oPpQtNuMmMtMmMsNrPoQtQ8ObPaQnPrRpNpPkPoOtMiNqRoO9PpPvMvPoMnQuOtQnP 3 3 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 3 页 共 21 页 简单金融 成就梦想 图表目录 图 1:云端训练、云端推理、设备端推理三个细分市场的 AI 芯片竞争格局 . 7 图 2:吞吐量测试:在 batch size 为 1024 的情况下,双方的吞吐量旗鼓相当,TPU 略领 先 2% . 11 图 3:性价比:TPU 每美元每秒处理图像的表现稍高于英伟达 V100 GPU . 11 图 4:
10、90 次训练之后 Top-1 精确值,TPU 比 GPU 精确值略高 0.7% . 11 图 5:达到 75.1%Top-1 准确率所需成本,GPU 成本为 88 美元,TPU 为 55 美元 11 图 6:GPU 和 TPU 训练成本和速度对比 . 11 图 7:英伟达推出的各类用于 AI 推理和训练的 GPU . 11 图 8:英伟达推出的各种深度学习软件 SDK . 12 图 9:寒武纪 Neuware 软件栈结构图,对标英伟达 CUDA . 14 表 1:寒武纪产品线主要分为“智能终端处理器 IP(端)”和“智能加速卡(云+边)”两 大类 . 4 表 2:目前搭载寒武纪 AI 推理芯片
11、“思元 100/270”的服务器 . 4 表 3:寒武纪三大业务占比及毛利率情况 . 5 表 4:寒武纪终端智能处理器 IP 授权业务收入情况(单位:万元) . 5 表 5:“端-边-云”对 AI 芯片的算力和功耗、延时性有不同的要求 . 6 表 6:AWS 和华为推出的基于自研 ASIC 芯片的云端 AI 推理加速计算公有云服务8 表 7:AWS、华为云、阿里云推出的基于 FPGA 的深度学习推理加速计算公有云服务 . 8 表 8:目前已经推出的自动驾驶域控制器芯片平台以及主流 ADAS 控制器芯片 . 9 表 9:谷歌 TPU、寒武纪思元芯片、华为昇腾芯片、英伟达 GPU 主要参数对比 1
12、3 表 10:寒武纪历年前五大客户收入情况 . 14 表 11:国内智能计算集群市场未来 1-2 年的总体市场空间估算. 16 表 12:寒武纪收入拆分及预测(单位:百万元) . 17 表 13:寒武纪可比芯片设计公司历年 PS 及当前 PS(TTM) . 18 合并损益表 . 19 合并现金流量表 . 19 合并资产负债表 . 19 重要财务指标 . 错误!未定义书签。 4 4 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 4 页 共 21 页 简单金融 成就梦想 1、“端-边-云”全布局的 AI 芯片明星公司 寒武纪产品线按应用场景分类可以划分为“端-边-云”三大类。(1)面向
13、各类型智能 终端(智能手机、智能摄像机等),寒武纪采取 IP 授权的模式,将智能芯片 IP 提供给下游 SoC芯片公司, 由下游芯片公司基于IP二次设计人工智能ASIC芯片并将其集成到SoC中, 进而再由芯片公司将 SoC 提供给各类型智能终端厂商,主要客户有华为海思、紫光展锐、 星宸科技(SigmaStar)。(2)面向云和数据中心,提供智能加速卡,已经上市的相关产品 有思元 100/思元 270,现已上市的这两款芯片主要用于云端推理,寒武纪目前正在开发用 于人工智能算法训练的智能加速卡思元 290,暂未上市,主要客户有联想、浪潮、H3C 等 服务器厂商, 其中思元 100 已经在滴滴云 (
14、弹性推理服务 EIS) 、 金山云 (云物理机 CMLU1) 等公有云厂商所提供的云服务中得到应用。(3)面向边缘计算,寒武纪目前已经推出思元 220 专门用于人工智能边缘计算推理场景(例如智能机器人、无人机等)。 表 1:寒武纪产品线主要分为“智能终端处理器 IP(端) ”和“智能加速卡(云+边) ”两大类 分类 产品名称 简介 在 1GHz 主频下,定点神经网络运算 的峰值速度 客户 8 位 16 位 32 位 寒武纪 1H (寒武纪第二 代 IP 架构) Cambricon-1H16 1H 系列高性能版本 1Tops 0.5Tops 华为海思、紫光展锐、晨星 (MStar)、星宸科技(S
15、igmaStar) Cambricon-1H8 1H 系列中量级版本 1Tops Cambricon-1H8mini 1H 系列轻量级版本 0.5Tops 寒武纪 1M (寒武纪第三 代 IP 架构) Cambricon-1M-4K 1M 系列高性能版本 8Tops 4Tops 1Tops Cambricon-1M-2K 1M 系列中量级版本 4Tops 2Tops 0.5Tops Cambricon-1M-1K 1M 系列轻量级版本 2Tops 1Tops 0.5Tops 分类 产品名称 简介 产品 AI 算力 客户 INT8 INT4 INT16 思元 100 思元 100-C 数据中心(
16、推理) 32 联想、浪潮、华三、五舟、宝德 思元 100-D 个人电脑、 工作站 (桌 面环境) 思元 270 思元 270-S4 数据中心(推理) 128 256 64 思元 270-F4 个人电脑、 工作站 (桌 面环境) 128 256 64 浪潮 思元 220 思元 220 M.2 边缘端 8 智慧工厂、无人机、智慧零售、智 能机器人 资料来源:寒武纪官网,申万宏源研究 表 2:目前搭载寒武纪 AI 推理芯片“思元 100/270”的服务器 厂商 型号 MLU 最大支持 数量 MLU270-S4 MLU100-D3 MLU100-C3 Lenovo HG680X 8 SR650 4 I
17、nspur NF5468M5 8 NF5280M5-GPU SA5212M5 4 NF5280M5 3 5 5 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 5 页 共 21 页 简单金融 成就梦想 厂商 型号 MLU 最大支持 数量 MLU270-S4 MLU100-D3 MLU100-C3 H3C R4900 G3 4 五舟 S120M3 1 宝德 PR2906P 6 PR4908P 8 PR4904P 4 资料来源:寒武纪官网,申万宏源研究 寒武纪盈利模式有“IP 授权”、“芯片销售”、“IDC 系统集成”三种。(1)IP 授 权: 寒武纪面对各类智能终端的AI处理器IPCa
18、mbricon-1H/1M采取 “IP授权模式” , 即在授权给 SoC 厂商时会先收取一次性固定费用, 等到搭载 SoC 的智能终端出货之后, 寒 武纪会再根据终端出货量数据收取计件费用,计件费用的计算方式一般为“出货量*每个终 端收取的版税费”或者“出货量*智能终端单价*版税费比例”。(2)芯片销售:寒武纪面 向“云和数据中心”以及“边缘计算”一般采取直接向服务器厂商销售 AI 芯片(智能加速 卡)的销售模式。(3)IDC 系统集成(兼售 AI 芯片):类似政府采购项目制商业模式, 寒武纪现有案例有珠海市横琴先进智能计算中心。2019 年 IP 授权模式占整体收入比重为 15%,芯片销售模
19、式占整体收入 18%,IDC 系统集成占总体收入比重为 67%。其中 2019 年 IDC 系统集成收入主要来自珠海横琴智能计算平台项目,确认收入约 2.07 亿元,由于寒 武纪在其中核心价值来自于其思元系列推理芯片,因此寒武纪该业务毛利率较一般 IDC 厂 商高(寒武纪毛利率为 58%,而其他 IDC 公司毛利率为 20%40%)。 表 3:寒武纪三大业务占比及毛利率情况 项目 2017 年 2018 年 2019 年 单位:万元 收入 占比 收入 占比 收入 占比 终端智能处理器 IP 771 98.33% 11,666 99.69% 6,877 15.49% 毛利率 100.00% 99
20、.92% 99.77% 云端智能芯片及加速卡 7,888 17.77% 毛利率 78.23% 智能计算集群系统 29,618 66.72% 毛利率 58.23% 其他 8 1.05% 36 0.31% 7 0.02% 其他业务收入 5 0.62% 3 0.01% 合计 784 100.00% 11,703 100.00% 44,394 100.00% 毛利率 99.96% 99.90% 68.19% 资料来源:公司招股说明书,申万宏源研究 表 4:寒武纪终端智能处理器 IP 授权业务收入情况(单位:万元) 年度 固定费用模式授权收入 计件模式授权收入 合计 2019 年 2,199.72 4,
21、677.40 6,877.12 2018 年 7,394.83 4,271.38 11,666.21 2017 年 285.56 485.71 771.27 合 计 9,880.11 9,434.49 19,314.61 资料来源:公司公告,申万宏源研究 6 6 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 6 页 共 21 页 简单金融 成就梦想 2、芯片性价比是寒武纪“破局”的关键 2.1、云上 AI 芯片英伟达一家独大,边端推理芯片格局未定 人工智能芯片主要分为“训练(Training)”芯片和“推理(Inference)”芯片。 “训练芯片”主要用于人工智能算法训练,即在云
22、端将一系列经过标记的数据输入算法模 型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片” 主要用于人工智能算法推理,即将在云端训练好的算法模型进行裁剪优化变“轻”之后, 进入“实战”阶段,输入数据直接得出准确的识别结果。 不同用途(训练 or 推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。 首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是 低延时(完成推理过程所需要的时间尽可能短)、低功耗。其次,“端-边-云”三个环节 对 AI 芯片的不同要求见下表其中端和边上进行的大部分是 AI“推理”,因此用于端 和边的 AI 芯片
23、性能要求和上述推理芯片一致;大部分的训练过程是在云和数据中心进行, 训练过程对时延没有什么要求,因此需要保证 AI 芯片在尽可能保证较高算力的情况下,功 耗尽可能低,另外许多推理过程也是在云端进行。 表 5: “端-边-云”对 AI 芯片的算力和功耗、延时性有不同的要求 端 边 云 耳机电话 智能手机 个人电脑 网络摄像机 IPC 边缘服务器 数据中心 算力 20MOPS 100GOPS 1-10TOPS 10-20TOPS 10-20TOPS 10-500TOPS 200+TOPS 功耗 1 mW 10 mW 1-2W 3-10W 3-10W 10-300W 200+W 模型大小 10KB
24、100KB 10MB 10-100MB 10-100MB 100+MB 300+MB 延时 FPGAASIC,通用性越低,代表 其适合支持的算法类型约少。(2)性能功耗比:GPUFPGAASIC,性能功耗比越高越 好,意味着相同功耗下运算次数越多,训练相同算法所需要的时间越短。 在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。 1. 在云和数据中心 AI 芯片市场,“训练”和“推理”两个环节都是英伟达 GPU 一 家独大,几乎占据 90%以上份额,包括 AWS、微软 Azure、谷歌云、阿里云、 7 7 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 7 页 共 21 页
25、 简单金融 成就梦想 华为云、 腾讯云在内的大部分公有云厂商上线的 AI 加速计算公有云服务绝大部分 都是基于英伟达 Tesla 系列 GPU。 (1)云端训练用的几乎全部是英伟达 GPU,公有云厂商中仅谷歌云一家除了提 供以英伟达 GPU 为主的云计算加速服务之外, 还推出了基于自研 AI 芯片 TPU 的 深度学习训练服务; (2)云端推理目前出现了基于 GPU、FPGA、ASIC 三种不同芯片云计算服务, 但是市场份额仍然以英伟达 GPU 为主,其中 AWS、阿里云、腾讯云、华为云等 公有云厂商均推出了 FPGA 加速计算云服务,另外 AWS 推出了基于自研 AI 芯片 Inferent
26、ia 的 ASIC 加速计算服务,华为云推出了基于自研 AI 芯片昇腾 310 的 ASIC 加速计算服务。 2. 在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的 芯片厂商出现手机市场以高通、 华为、 苹果原主控芯片厂商为主, 自动驾驶、 安防 IPC 领域英伟达暂时领先。 (1) 手机: 高通从骁龙820开始, 就已经具备第一代人工智能引擎AI Engine; 高通从第三代 AI Engine 开始引入异构计算 CPU、 GPU 和 DSP 的异构并 行计算;目前高通已经迭代至第四代,骁龙 855 是第一个搭载第四代 AI Engine 的 SoC。华为麒麟 970、
27、980 分别引入寒武纪 IP(1A/1H),使 得手机 SoC 开始具备 AI 能力,在 2019 年 6 月华为发布麒麟 810,华为 与寒武纪合作终止,华为采用了自研 AI 芯片达芬奇架构(华为在 2018 年 推 出 了 达 芬 奇 架 构 , 对 标 寒 武 纪 智 能 处 理 器IP Cambricon-1A/1H/1M)。苹果 2017 年发布的 A11 芯片也具备了 AI 能力,附带 Neural Engine 和开发平台 Core ML 用于机器学习。 (2) 安防 IPC: 仍然以采用英伟达 Jetson 系列 GPU 为主。例如海康采用了英 伟达 JetsonTX1, 大华
28、睿智系列人脸网络摄像机采用的是英伟达 Tesla P4 GPU。 另外国内三大安防厂商也在陆续采用 ASIC 芯片, 例如海康、 大华、 宇视在前端智能化摄像机中采用 Movidious 的 Myriad 系列芯片,大华 自研 AI 芯片用于新款睿智人脸摄像机。 (3) 智能驾驶: L3 级别以上自动驾驶芯片以英伟达 Drive 平台为主(包括 Xavier 和 Orin 两款 SoC) ; 华为将昇腾 310 用于自动驾驶域控制器 MDC 上, 2020 年已经通过车规级认证; 英特尔 Mobileye 的 EyeQ4-5 被用在 L3-5 智能驾驶。但是目前整车厂和 Tier1 实际采用得
29、最多仍然是以英伟 达 GPU 为主。(在低级别的 L1-L2 辅助驾驶上,采用的是 NXP、瑞萨等 厂商的 MCU 芯片,不涉及深度学习。) (4) 智能音箱:目前智能音箱的语音语义识别均在云端完成推理计算,终端上 没有 AI 专用处理单元。 图 1:云端训练、云端推理、设备端推理三个细分市场的 AI 芯片竞争格局 8 8 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 8 页 共 21 页 简单金融 成就梦想 资料来源:雷锋网,申万宏源研究 表 6:AWS 和华为推出的基于自研 ASIC 芯片的云端 AI 推理加速计算公有云服务 系列 实例大小 vCPU 内存 (GiB) 存储 I
30、nferentia 芯片 网络带宽 规格参考价 亚马逊 AWS Inf1 系列 inf1.xlarge 4 8 仅限 EBS 1 最高 25 Gbps 0.368 USD/小时 inf1.2xlarge 8 16 仅限 EBS 1 最高 25 Gbps 0.584 USD/小时 inf1.6xlarge 24 48 仅限 EBS 4 25Gbps 1.905 USD/小时 inf1.24xlarge 96 192 仅限 EBS 16 100Gbps 7.619 USD/小时 系列 规格名称 vCPUs | 内存 CPU 基准 / 最大 带宽 内网收发包 特性 规格参考价 华为 AI 推理加 速
31、型 Ai1 ai1.large.4 2vCPUs | 8GB Intel SkyLake 6151 3.0GHz 1.3/4 Gbit/s 200,000 1 * HUAWEI Ascend 310/1 * 8G 1.10/小时 ai1.xlarge.4 4vCPUs | 16GB Intel SkyLake 6151 3.0GHz 2/6 Gbit/s 350,000 2 * HUAWEI Ascend 310/2 * 8G 2.20/小时 ai1.2xlarge.4 8vCPUs | 32GB Intel SkyLake 6151 3.0GHz 4/10 Gbit/s 500,000 4
32、* HUAWEI Ascend 310/4 * 8G 4.39/小时 ai1.4xlarge.4 16vCPUs | 64GB Intel SkyLake 6151 3.0GHz 8/15 Gbit/s 1,000,000 8 * HUAWEI Ascend 310/8 * 8G 8.79/小时 ai1.8xlarge.4 32vCPUs | 128GB Intel SkyLake 6151 3.0GHz 15/25 Gbit/s 2,000,000 16 * HUAWEI Ascend 310/16 * 8G 17.57/小时 资料来源:AWS 官网,华为云官网,申万宏源研究 表 7:AWS
33、、华为云、阿里云推出的基于 FPGA 的深度学习推理加速计算公有云服务 系列 实例 FPGA vCPU 内存 (GiB) 按需价格/小时* 亚 马 逊 AWS F1 系列 f1.2xlarge 1 8 122 1.65 USD f1.4xlarge 2 16 244 3.30 USD f1.16xlarge 8 64 976 13.20 USD 系列 规格名称 vCPUs | 内存 CPU 特性 规格参考价 华为 fp1.2xlarge.11 8vCPUs | 88GB Intel E5-2697V4 FPGA: 1 * Xilinx VU9P / DPDK 10.77/小时 9 9 新股分析
34、 请务必仔细阅读正文之后的各项信息披露与声明 第 9 页 共 21 页 简单金融 成就梦想 FPGA 加 速型 Fp1 2.3GHz fp1.8xlarge.8 32vCPUs | 224GB Intel E5-2697V4 2.3GHz FPGA: 1 * Xilinx VU9P / DPDK 19.69/小时 fp1.8xlarge.11 32vCPUs | 352GB Intel E5-2697V4 2.3GHz FPGA: 4 * Xilinx VU9P / DPDK 43.08/小时 fp1.16xlarge.8 64vCPUs | 448GB Intel E5-2697V4 2.3
35、GHz FPGA: 2 * Xilinx VU9P / DPDK 36.71/小时 fp1.16xlarge.11 64vCPUs | 704GB Intel E5-2697V4 2.3GHz FPGA: 8 * Xilinx VU9P / DPDK 86.15/小时 fp1c.2xlarge.11 8vCPUs | 88GB Intel E5-2697V4 2.3GHz FPGA: 1 * Xilinx VU9P / OpenCL 10.77/小时 fp1c.8xlarge.8 32vCPUs | 224GB Intel E5-2697V4 2.3GHz FPGA: 1 * Xilinx V
36、U9P / OpenCL 19.69/小时 fp1c.8xlarge.11 32vCPUs | 352GB Intel E5-2697V4 2.3GHz FPGA: 4 * Xilinx VU9P / OpenCL 43.08/小时 fp1c.16xlarge.8 64vCPUs | 448GB Intel E5-2697V4 2.3GHz FPGA: 2 * Xilinx VU9P / OpenCL 36.71/小时 fp1c.16xlarge.11 64vCPUs | 704GB Intel E5-2697V4 2.3GHz FPGA: 8 * Xilinx VU9P / OpenCL 8
37、6.15/小时 系列 实例规格 vCPU 内存(GiB) FPGA 网络收发包能力 (万 PPS) 阿里云 FI 系列 ecs.f1-c8f1.2xlarge 8 60 Intel ARRIA 10 GX 1150 40 ecs.f1-c8f1.4xlarge 16 120 2 * Intel ARRIA 10 GX 1150 100 ecs.f1-c28f1.7xlarg e 28 112 Intel ARRIA 10 GX 1150 200 ecs.f1-c28f1.14xlar ge 56 224 2 * Intel ARRIA 10 GX 1150 200 阿里云 F3 系列 ecs.
38、f3-c4f1.xlarge 4 16 1 * Xilinx VU9P 30 ecs.f3-c8f1.2xlarge 8 32 1 * Xilinx VU9P 50 ecs.f3-c16f1.4xlarg e 16 64 1 * Xilinx VU9P 100 ecs.f3-c16f1.8xlarg e 32 128 2 * Xilinx VU9P 200 ecs.f3-c16f1.16xlar ge 64 256 4 * Xilinx VU9P 250 资料来源:AWS 官网,华为云官网,阿里云官网,申万宏源研究 表 8:目前已经推出的自动驾驶域控制器芯片平台以及主流 ADAS 控制器芯片
39、领域 供应商 自动驾驶芯片平台 浮点计算性能 TOPS 功耗 性能功耗比 设计 适用场景 自动驾驶域 控制器 (L2.5/L3-5) 英伟达 NVIDIA DRIVE AGX Xavier 30 万亿次/秒 30W 1.00 1 个 Xavier SoC+结合 6 种不同 类型的处理器 L2+/L3 NVIDIA DRIVE AGX Pegasus 320 万亿次/秒 460W 0.70 2 个 Xavier SoC+2 个 Turing GPU L4/L5 NVIDIA DRIVE AGX Orin(1) 26 万亿次/秒 15W 1.73 OrinS(1Cam) L2-L5 NVIDIA
40、DRIVE AGX Orin(2) 100 万亿次/秒 40W 2.50 Orin(4Cam) L2 1010 新股分析 请务必仔细阅读正文之后的各项信息披露与声明 第 10 页 共 21 页 简单金融 成就梦想 NVIDIA DRIVE AGX Orin(3) 400 万亿次/秒 130W 3.08 2 个 Orin L3 NVIDIA DRIVE AGX Orin(4) 2000 万亿次/秒 750W 2.67 2 个 Orin+2 个下一代 GPU L4/L5 高通 Snapdragon Ride(2) 不详 (30700 万亿次 之间) 不详 不详 不详 L2-L3 Snapdrago
41、n Ride(3) 700 万亿次/秒 130W 5.38 不详 L4-L5 英特尔 Mobileye EyeQ4 2.5 万亿次/秒 3W 0.83 4 个 CPU 内核+6 个矢量微码处 理器(VMP) L3 Mobileye EyeQ5 24 万亿次/秒 10W 2.40 8 枚多线程 CPU 内核+18 枚 Mobileye 的下一代视觉处理器 L4/5 特斯拉 FSD 600 万亿次/秒 200W 3.00 3 个 CPU+1 个 GPU+2 个 NPU L3-L5 华为 昇腾 352 万亿次/秒 352W 1.00 华为自研 Host CPU 芯片+AI 芯 片+ISP 芯片+SS
42、D 控制芯片 L4 ADAS 控制 器 (L1-L2) NXP S32V234 不详 不详 不详 不详 L1-2 TI TDA2X 不详 不详 不详 不详 L1-2 瑞萨 R-Car V2H 不详 不详 不详 不详 L1-2 英特尔 Mobileye EyeQ1 0.0044 万亿次/秒 2.5W 不详 不详 L1-2 Mobileye EyeQ2 0.026 万亿次/秒 2.5W 不详 不详 L1-2 Mobileye EyeQ3 0.256 万亿次/秒 2.5W 不详 不详 L2 高通 Snapdragon Ride(1) 30 万亿次/秒 不详 不详 不详 L1/L2 资料来源:英伟达官
43、网,高通官网,华为官网,NXP 官网,瑞萨官网,申万宏源研究 在深度学习训练芯片市场,FPGA 和 ASIC 芯片暂时难以撼动英伟达 GPU 在深度学习 中的地位,因为英伟达的 Cuda 以及 cuDNN、TensorRT 等一系列专为深度学习打造的 软件工具链已经形成十分强大的护城河。 FPGA 和 GPU 对比,虽然 FPGA 吞吐率、性能功耗比优于 GPU,但是 FPGA 存在两 个天然缺陷,决定了 FPGA 无法在 AI 训练芯片市场发展:其一,FPGA 只适合用于推理而 不适用于训练,因为算法训练一般是浮点运算(通常是 FP16),算法推理一般是定点运算 (通常是 INT8),可以简单把浮点运算理解成小数,特点是精度要求高,所以计算量大, 功耗大,但是 FPGA 只适合做定点运算,不适