《中国人工智能产业发展联盟:AI芯片技术选型目录(2020年)[97页].pdf》由会员分享,可在线阅读,更多相关《中国人工智能产业发展联盟:AI芯片技术选型目录(2020年)[97页].pdf(97页珍藏版)》请在三个皮匠报告上搜索。
1、中国人工智能产业发展联盟 AI 芯片技术选型目录 (2020 年) 中国人工智能产业发展联盟 计算架构与芯片推进组 2020 年 7 月 中国人工智能产业发展联盟 中国人工智能产业发展联盟 AI 芯片技术选型目录(2020) 编写专家委员会 郑南宁中国工程院院士 黄 如中国科学院院士 楚 庆紫光展锐首席执行官 陈云霁中国科学院计算技术研究所所长助理、智能处理器研究中心主任 汪 玉清华大学电子工程系主任、信息科学技术学院副院长 编写委员会主席 任鹏举西安交通大学人工智能与机器人研究所副所长 / 副教授、博导 张蔚敏中国信息通信研究院工程师 编写成员单位 / 个人(按名称的首字母来排序) 安谋科技
2、(中国)有限公司 北京百度网讯科技有限公司 北京比特大陆科技有限公司 北京清微智能科技有限公司 成都启英泰伦科技有限公司 瑞芯微电子股份有限公司 高通信息科技(上海)有限公司 华为技术有限公司 深圳鲲云信息科技有限公司 赛灵思 上海海思技术有限公司 上海天数智芯半导体有限公司 上海深聪半导体有限责任公司 上海燧原科技有限公司 深圳云天励飞技术有限公司 颖脉信息技术(上海)有限公司 NVIDIA 紫光展锐 中科寒武纪科技股份有限公司 中国人工智能产业发展联盟 qRtMmMqPoRoMvNpQtPrOmP6MaObRsQrRnPoOfQqQyQjMrRtObRoOyRMYoOxPuOsOnM 一、
3、引言 1 二、云端 / 数据中心5 2.1 云端训练 6 2.1.1 北京百度网讯科技有限公司 - 百度昆仑 1 芯片 6 2.1.2 上海燧原科技有限公司 - 邃思通用人工智能训练芯片 7 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tensor Core GPUs 8 2.2 云端推断 10 2.2.1 赛灵思 - Alveo 10 2.2.2 中科寒武纪科技股份有限公司 - 寒武纪思元 100 14 2.2.3 中科寒武纪科技股份有限公司 - 寒武纪思元 270 15 2.2.4 北京比特大陆科技有限公司 - 比特大陆算丰 TPU 芯片 BM1684 16 2.2.
4、5 深圳鲲云信息科技有限公司 - 星空 x3 加速卡 18 2.2.6 华为技术有限公司 - 昇腾 310AI 处理器 20 2.3小结22 三、边缘计算24 3.1 上海天数智芯半导体有限公司 - 天数智芯 Iluvatar CoreX I 芯片 25 3.2 NVIDIA-NVIDIA Jetson ,NVIDIA T4 Tensor Core GPUs 27 3.3 紫光展锐 - 虎贲 T710 29 3.4 中科寒武纪科技股份有限公司 - 寒武纪思元 220 M.2 30 3.5 华为技术有限公司 - 昇腾 310AI 处理器 31 3.6 深圳鲲云信息科技有限公司 - 星空 x3 加
5、速卡 33 3.7小结36 目录CONTENTS 目录中产品顺序不分先后 中国人工智能产业发展联盟 四、终端38 4.1通用端侧产品 39 4.1.1 NVIDIA-NVIDIA Jetson 39 4.1.2 华为技术有限公司 - 昇腾 310AI 处理器 41 4.1.3 瑞芯微电子股份有限公司 - RK1808 AIoT 芯片方案 43 4.1.4 瑞芯微电子股份有限公司 - RK3399 Pro 人工智能端侧芯片方案 45 4.1.5 上海天数智芯半导体有限公司 - 天数智芯 Iluvatar CoreX I 芯片 47 4.2智能驾驶 49 4.2.1 赛灵思 - ZU7EV(Zyn
6、q UltraScale+ MPSoC) 49 4.2.2 NVIDIA - NVIDIA DRIVE 53 4.3安防、机器人、车载54 4.3.1 深圳云天励飞技术有限公司 - 面向计算机视觉的深度学习神经网络处理器 54 4.3.2 紫光展锐 - 虎贲 T710 59 4.3.3 上海海思技术有限公司 - Hi3516D V300 60 4.3.4 上海海思技术有限公司 - Hi3519A V100 61 4.3.5 上海海思技术有限公司 - Hi3559A V100 62 4.3.6 上海海思技术有限公司 - Hi3562 V100 63 4.3.7 上海海思技术有限公司 - Hi35
7、66 V100 64 4.3.8 上海海思技术有限公司 - Hi3568 V100 65 4.3.9 上海海思技术有限公司 - Hi3569 V100 66 4.3.10 北京清微智能科技有限公司 - TX510 67 4.4手机68 4.4.1 华为技术有限公司 - Kirin 990 5G 处理器 68 4.4.2 高通信息科技(上海)有限公司 - 高通骁龙 865 移动平台70 4.5语音72 4.5.1 成都启英泰伦科技有限公司 - 人工智能语音识别降噪一体芯片 CI1103 72 4.5.2 上海深聪半导体有限责任公司 - 人工智能语音芯片 75 中国人工智能产业发展联盟 4.5.3
8、 北京清微智能科技有限公司 - TX210 77 4.6小结78 五、IP 技术80 5.1 安谋科技(中国)有限公司 - 周易 AIPU 81 5.2 颖脉信息技术(上海)有限公司 - PowerVR NNA 神经网路加速器系列 IP 83 5.3小结86 附录 88 中国人工智能产业发展联盟 说明 AI 芯片技术前有图 1 logo,代表企业在报名提交产品文本资料后,同时提供产品技术测试报 告并参与由 AIIA 委托中国信息通信研究院进行的验证测试,但具体实测性能不公开。 AI 芯片技术前有图 2 logo,代表在企业提交产品资料介绍时,同时提交产品技术测试报告, 并参与 AIIA DNN
9、 benchmark 项目测试,具体实测性能在 AIIA DNN benchmark 官网可查看 ( 声明:本选型目录的编写工作以企业自愿报名方式开展,所有相关产品的数据文本资料均由企 业提供且经企业审核,如因内容不当造成直接或间接损失,AIIA 不承担任何责任。 图 2 AIIA DNN benchmark 项目 logo 图 1 产品验证测试 logo 中国人工智能产业发展联盟 引言 CHAPTER 1 中国人工智能产业发展联盟 2 AI 芯片技术选型目录 背景与意义 图 1 产品验证测试 logo 当前随着人工智能理论和技术的日益成熟,应用范围不断扩大,目前已广泛应用于计算机科学、金融
10、贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等 诸多方面。 算力作为承载人工智能应用的平台和基础,其发展推动了整个人工智能系统的进步和快速演进,是人 工智能最核心的要素之一。以人工智能应用为主要任务的,面向智能计算的处理器的相关设计方法与技术 已成为国内外工业界和学术界共同角逐的热点,国内外企业纷纷布局 AI 芯片。 AI 芯片的应用场景不再局限于云端,部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项 产品日趋丰富。除了追求性能提升外,AI 芯片也逐渐专注于特殊场景的优化。 为了进一步促进供需对接, 为AI芯片供应商和需求商提供交流的平台,
11、中国人工智能产业发展联盟 (以 下简称“AIIA”或联盟)计算架构与芯片推进组启动“AI 芯片技术选型目录”(以下简称“选型目录”) 的工作,希望为 AI 芯片的可持续发展,服务和促进相关产业发展壮大贡献一份力量。 内容与目的 选型目录在 1 年前开始面向全球企业征集,内容包含 AI 芯片产品的: 技术概述:主要介绍 AI 芯片产品的技术特点与应用场景及功能概述; 技术指标:主要介绍 AI 芯片产品实现的技术及其特点; 应用案例:主要介绍该款 AI 芯片产品已经应用的场景与经典的案例介绍; 产品特征 / 技术特点:详细介绍 AI 芯片产品的各项指标或特定应用领域的技术描述; 专利状态:作为选填
12、项,披露产品专利状态 产品信息:以列表形式,展示 AI 芯片的主要产品信息,包括功耗、芯片特征、上市时间、深度 学习计算能力及工艺等。 征集 AI 芯片产品信息后,由 AIIA 委托中国信息通信研究院进行芯片验证测试。参与产品验证测试的 AI 芯片,将以“tested by AIIA”logo 体现在产品介绍页,如图 1 所示,代表该 AI 芯片有真实产品但真 实性不能公开。 中国人工智能产业发展联盟 3 引言 为了帮助企业、系统集成厂商、开发者等准确评价芯片的技术水平和在国际上行业内的地位,AIIA 于 2017 年发起的 AIIA DNN benchmark 也为 AI 芯片选型目录工作提
13、供技术支撑。为了进一步帮助企 业产品宣传,帮助用户了解 AI 芯片的真实性能表现,参与 AIIA DNN benchmark 的 AI 芯片,将以“AIIA DNN benchmark”logo 体现在产品介绍页,如图 2 所示,代表该芯片可从 AIIA DNN benchmark 官网 查到测试数据( 图 2 AIIA DNN benchmark 项目 logo 图 3 AI 芯片根据行业应用分类图 经过近半年的筹备工作,推进组完成材料汇总,测试验证并组织行业内专家对目录内容进行专家评审 工作。AIIA 2020 年度首批“AI 芯片技术选型目录”,共收到 22 家企业报名,反馈 49 款
14、AI 芯片相关 产品技术,经过测试、评审首批目录包含 19 家企业共 46 款 AI 芯片产品技术。 人工智能芯片按照目前的应用场景来看,主要分为训练和推断两类场景,按部署位置又可分为云端、 边缘和终端。AIIA “AI 芯片技术选型目录”具体根据应用场景与部署位置,包含云端训练、基于云端、 边缘和终端推断的四大产品形态。又依据行业应用,AI 芯片技术选型目录根据垂直应用场景如图 3 所示 给出。 AIIA 希望通过“AI 芯片选型目录”的工作,一方面提供选型参考,希望收入 AI 芯片目录的产品信息 可以作为用户选型依据之一;另一方面是帮助芯片企业宣传产品,同时通过测试验证以及依托 AIIA
15、DNN benchmark 项目,来切实反映当前 AI 芯片的真实性能。 后续技术选型目录将以联盟内AI芯片供应商和需求商的真实案例为切入点, 继续迭代更新目录内容, 同时推动符合用户需求的测试评估,以促进产业健康发展,同时助力人工智能生态建设。 中国人工智能产业发展联盟 4 AI 芯片技术选型目录 中国人工智能产业发展联盟 云端 / 数据中心 CHAPTER 2 中国人工智能产业发展联盟 6 AI 芯片技术选型目录 【技术概述】 百度昆仑 1 芯片面向 AI 通用计算,基于百度 XPU 架构,既可以用于训练,也可以用于推理, 能全面支持语音,图像,自然语言处理等应用。 【技术指标】 百度昆仑
16、 1 芯片基于百度 XPU 架构,采用三 星 14nm 工艺,HBM2 和 PCIE4.0 等技术,给用 户提供高性能、高带宽、低功耗、高灵活性、高度 可编程等优势。 【应用案例】 百度 ERNIE 模型,应用于翻译、搜索排序等 场景。百度网盘里的图像模型;百度云主机;百度 云的工业质检客户。 【产品特征 / 技术特点】 1高性能,峰值 256Tops; 2高带宽,片外内存带宽 512GB/s; 3高度可编程性,能提供 C/C+ 的编程, 用户可以自由开发自己的算子。 【专利状态】(未提供) 2.1 云端训练 2.1.1 北京百度网讯科技有限公司 - 百度昆仑 1 芯片 芯片名称功耗内存带宽上
17、市时间 深度学习计算能力 工艺 INT8FP16FP32 百度昆仑 1150W16GB512GB/s2019 年 11 月256Tops64Tops16Tops14nm 【产品信息】 中国人工智能产业发展联盟 云端 / 数据中心 7 2.1.2 上海燧原科技有限公司 - 邃思通用人工智能训练芯片 【技术概述】 邃思芯片集成神经元处理器架构和数据处理引 擎,通过可编程的通用张量 / 向量运算核心,支持 各类数据精度的主流深度学习训练负载。 【技术指标】 邃思芯片采用 12nm FinFET 工艺,2.5D 封 装,总计 141 亿个晶体管。其宣称单芯片提供 20TFLOPSFP32 及 80TF
18、LOPSBF16/FP16 的算力,最大功耗 190W。 邃思芯片主要技术特点包括: 自主指令集的神经元处理器(SIP),可 编程的通用张量 / 向量运算核心,支持张量 / 向量 / 标量计算; 神经元处理集群(SIC),由 8 个神经元 处理器构成,4MB 共享集群缓存; 自主研发 2.5D 封装,集成 16GB HBM 存储, 提供 512GB/s 带宽; 自主ESL(燧原智能互联,Enflame Smart Link)片间互联引擎,每通道双向 50GB/s,4 通道 总共 200GB/s接口带宽,通道延时小于 1s; 系统稳定性控制,支持服务器级别 RAS 需求(Reliability,
19、 Availability and Serviceability, RAS)。 支 持 CNN、RNN、LSTM、BERT 等 网 络模型 支持数据类型:FP32/FP16/BF16/INT8/ INT16/INT32 等 【应用案例】(未提供) 【产品特征 / 技术特点】 云燧 T10 是基于邃思芯片打造的人工智 能训练加速卡,20TFLOPSFP32,最大功耗 225W, 支 持 FP32/FP16/BF16/INT8/INT16/ INT32 等多种数据类型;支持 PCIe 4.0 接口,提 供 64GB 带宽以及 200GB/s 片间互联带宽; 驭算计算和编程平台主要包含分布式调 度、
20、软件开发包(SDK)和设备驱动层,用户可以 将已有训练系统,无缝迁移至邃思平台上运行,无 需二次开发或者模型转换工作。 云燧 T10 人工智能训练加速卡面向云端 数据中心,可广泛应用于互联网、金融、教育、医 疗、工业及政务等人工智能训练场景。 【专利状态】 燧原科技及其子公司目前已获得 24 项授权专 利,其中包括 19 项发明专利,另有近 20 件专利 正在申请进程中。 【产品信息】 芯片名称功耗内存带宽上市时间 深度学习计算能力 工艺 INT8FP16FP32 邃思 190W(最 大功耗) 16GB HBM 512GB /s 2020 年 6 月 80TOPS 80TFLOPS 20TFL
21、OPS GF 12nm FinFET 中国人工智能产业发展联盟 8 AI 芯片技术选型目录 【技术概述】 为数据中心 GPU,可加快 AI、高性能计算 (HPC) 和图形技术的发展。 【技术指标】 NVIDIA Ampere GPU 架构配备 540 亿个晶 体管,为 7 纳米芯片架构,集训练和推理于一身, 具有多实例 GPU、TF32、结构化稀疏等特性。 NVIDIA Volta GPU 架 构 配 备 640 个 Tensor 内 核, 可 提 供 每 秒 超 过 100 万 亿 次 (TFLOPS) 的深度学习性能,是上一代 NVIDIA Pascal 架构的 5 倍以上。 NVIDIA
22、 Turing GPU 架构支持实时光线追 踪、AI、模拟和光栅化技术。 【应用案例】 利 用 NVIDIA A100/V100/T4 GPU 可 以 更 快速地处理要求最严格的高性能计算 (HPC) 和超 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tensor Core GPUs 大规模数据中心工作负载。现在,数据科学家和研 究人员可以在能源勘探和深度学习等应用场合中解 析 PB 级的数据,速度比使用传统 CPU 快几个数 量级。NVIDIA A100/V100/T4 加速器可以超快速 度运行更大型的模拟。此外, NVIDIA GPU 还能 为虚拟桌面、应用程序和工作
23、站提供超高性能和用 户密度。 【产品特征 / 技术特点】 NVIDIA A100 采用了 NVIDIA Ampere 架构 的突破性设计,集 AI 训练和推理于一身,宣称其 性能相比于前代产品提升了 20 倍。作为一款通用 型工作负载加速器,A100 还被设计用于数据分析、 科学计算和云图形。 NVIDIA V100 运 用 NVIDIA Volta 架 构, 拥有 640 个 Tensor 内核,是世界上第一个突 破 100 万亿次 (TFLOPS) 深度学习性能障碍的 中国人工智能产业发展联盟 云端 / 数据中心 9 芯片名称功耗显存带宽上市时间 深度学习计算能力 工艺 INT8FP32F
24、P64TF32 FP64 Tensor Core NVIDIA A100 400w 40GB HBM2 1555 GB/s 2020 年 5 月 624 TOPS | 1248 TOPS* (* 采用稀 疏技术) 19.5 TFLOPS 9.7 TFLOPS 312TFLOPS (* 采用 稀疏技术) 19.5 TFLOPS 7nm NVIDIA V100 (NVLink) 300w 32/16 GB HBM2 900 GB/s 2017 年 5 月 15.7 TFLOPS 7.8 TFLOPS 12nm NVIDIA V100 (PCIe) 250w 32/16 GB HBM2 900 GB
25、/s 2017 年 5 月 14 TFLOPS 7 TFLOPS 12nm NVIDIA V100S 250w 32 GB HBM2 1134 GB/s 2019 年 11 月 16.4 TFLOPS 8.2 TFLOPS 12nm NVIDIA T470w 16 GB GDDR6 320+ GB/s 2018 年 3 月 130TOPS 8.1 TFLOPS 12nm GPU。 NVIDIA T4 GPU 推理加速器搭载 NVIDIA Turing Tensor Core,提供多精度推理性能,以加速人 工智能的各种应用。 【专利状态】(未提供) 【产品信息】 中国人工智能产业发展联盟 10
26、AI 芯片技术选型目录 【技术概述】 赛灵思 AlveoTM 数据中心加速器卡专为现代 数据中心多样的应用需求而设计。Alveo 加速器卡 可通过对加速资源的重新配置, 适应持续算法优化, 在降低总成本的同时,灵活支持各类工作负载。 赛灵思推出的 Vitis 统一软件平台为各类 软件和 AI 推理应用开发提供统一编程模型,帮 助 用 户 加 速 实 现 从 C/C+、Python、Caffe、 Tensorflow 到差异化应用落地的开发过程。 【技术指标】 赛 灵 思 Alveo数 据 中 心 加 速 器 卡 基 于 Xilinx16nm UltraScale架构,使用赛灵思堆叠硅 片互联
27、(SSI) 技术来实现 FPGA 容量、带宽和功耗 效率,通过结合多个超逻辑区域 (SLR) 来增大密度。 Alveo 加速卡旨在加速服务器或工作站中的机器学 习、数据分析和视频处理等计算密集型应用。 2.2 云端推断 2.2.1 赛灵思 - Alveo AlveoU50 卡 采 用 XCU50 FPGA 包 括 2 个 SLR,配备 PCIe Gen4 和 8G HBM2,每秒 100G 网络连接,以高效能 75 瓦、小尺寸形式为 金融计算、机器学习、计算存储以及数据搜索与分 析工作负载提供优化加速。 Alveo U200 卡采用 XCU200 FPGA 包括 3 个 SLR , Alveo
28、 U250 卡使用 XCU250 FPGA 包 括 4 个 SLR。二者均可连接到 PCI Express的 16 个通道,最高运行速度 8GT/s(Gen3),也可以 连接到 4 根 DDR4 16 GB 2400 MT/s 64 位含纠 错码 (ECC) 的 DIMM,总计 64 GB 的 DDR4。 ALveo U280 加速卡采用 XCU280 包括三个 SLR, 底部 SLR (SLR0) 集成一个 HBM 控制器, 与相邻的 8 GB HBM2 内存接口连接。底部 SLR 还连接到 PCI Express 的 16 个通道,这些通 道可以最高 16 GT/s (Gen4) 的速度运
29、行。SLR0 和 SLR1 都连接到 DDR4 16 GB 2400 MT/s 64 中国人工智能产业发展联盟 云端 / 数据中心 11 位含纠错码 (ECC) 的 DIMM,总计 32 GB 的 DDR4。 【应用案例】 Alveo 加速卡已经开发和认证的关键应用 涵盖 AI/ML、视频转码、数据分析、金融风险建 模、安全和基因组学等。Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、 Falcon Computing、Maxeler Technologies、 Mipsology、NGCodec、Skreens、SumUp An
30、alytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies 等合作伙伴开发完成的 应用已经投入部署。此外,Dell EMC、Fujitsu Limited 和 IBM 等顶级 OEM 厂商也在同赛灵思 合作,认证采用 Alveo 加速器卡的多个服务器 SKU。 一,Alveo-Mipsology, Zebra 搭 载 Alveo U50 数据中心加速卡用于神经网络推理,板卡功 耗 75W,关键功能: 快速卷积神经网络 (CNN) 推理Zebra 设 立了新的性能标准; 支持所有神经网络Zebra 可加速任何 CNN 的所有层级; 易于
31、使用Zebra 是“即插即用”的解决 方案,无需对神经网络进行修改或再训练; 不改变软件环境无新语言、框架或工具。 Zebra 在 TensorFlow、PyTorch、ONNX、 Caffe 和 MXNet 模型内运行; 可扩展性、灵活性和适应性Zebra 可替 代 GPU 或在任何位置补充 CPU。 二,Alveo-SK 电讯基于人工智能的实时物 理入侵和盗窃检测服务, 基于赛灵思 Alveo U250 加速器卡,可提供充足的吞吐量与精准度。 【产品特征 / 技术特点】 Alveo U50 数据中心加速器卡采用赛灵思 UltraScale+ 架构,使用半高半长的外形尺寸和 低于 75 瓦的
32、低包络功耗。该卡支持第四代 PCIe 及高带宽存储器 (HBM2) , 每秒 100G 网络连接, 面向各种类型的服务器部署。 Alveo U50 加速器卡产品详细介绍: 规格U50 产品 SKUA-U50-P00G-PQ-G 卡总耗电量 1 75W 散热解决方案被动 重量300g 325g 外形尺寸半高半长 网络接口1x QSFP28 PCIe 接口 2, 3 Gen3 x16, Gen4 x8, CCIX HBM2 总容量8 GB HBM2 带宽201 GB/s4 查找表 (LUTs)872K 寄存器1,743K DSP slices5,952 最高分布 . RAM24.6 Mb 36 K
33、b 块 RAM1344 (47.3 Mb) 288 Kb UltraRAM640 (180.0 Mb) GTY 收发器20 符合部署条件有 注释: 1. Alveo U50 卡为 FPGA 结构与 HBM 存储器 分别搭配了单独的电源供电线。开发者必须确保他 们的设计不会从每条供电线汲取过多电源。如需了 解 更多信息,请参阅Alveo U50 数据中心加速器 卡安装指南(UG1370)。 2. PCIe 接口可以配置为支持各种链接宽度和 速度。最高为 Gen3 (8 Gt/s) x16、Gen4 (16 Gt/s) x8 或以 16 GT/s x8 运行的 CCIX。PCIe 接口还可以 配置
34、为双 x8 接口, 并连接到支持 PCIe 分叉的主机。 3. 此块在兼容模式下以 16.0 Gt/s (Gen4) 的 速度运行。请参阅UltraScale+ Devices Integrated Block for PCI Express LogiCORE IP 产 品 指 南 (PG213) 了解兼容模式的详情。 中国人工智能产业发展联盟 12 AI 芯片技术选型目录 4. 通过 PCIe 3.3V 电源供电线提供的 HBM2 功耗仅限为 10W。使用 HBM2 可实现的性能受限 于此功耗限制,并且因设计而异。HBM2 的额定 带宽为 201 GB/s。在不兼容 PCIe 的规格中,针对
35、 A-U50DD-P00G-ES3-G 和 A-U50-P00G-PQ-G 卡测得的 HBM2 带宽峰值为 316 GB/s。 Alveo U200 和 U250 数据中心加速器卡采 Alveo U280 数据中心加速器卡专为计算和存储工作负载而设计,拥有 8GB HBM2 + 32GB DDR4 内存、 1.1M LUT、 8.5k DSP 片、 每秒100G 双网络连接, 并支持第四代 PCIe 和 CCIX 互联标准。 Alveo U200/U250 加速器卡产品详细介绍 规格 U200 U250 U200 U250 主动散热版被动散热版主动散热版被动散热版 产品 SKU A-U200-
36、 A64G-PQ-G A-U200- P64G-PQ-G A-U250- A64G-PQ-G A-U250- P64G-PQ-G 散热解决方案主动被动主动被动 1122g 1066g 1122g 1066g 外形尺寸 全高、全长、 双宽度 全高、 长、 双宽度 全高、全长、 双宽度 全高、 长、 双宽度 卡总耗电量 1 225W225W 网络接口2x QSFP282x QSFP28 PCIe 接口Gen3 x16Gen3 x16 查找表 (LUT)1,182K1,728K 寄存器2,364K3,456K DSP slice6,84012,288 UltraRAM9601,280 DDR 总容量
37、64 GB64 GB DDR DDR 最大数据率2400 MT/s2400 MT/s DDR 总带宽77 GB/s77 GB/s Alveo U280 加速器卡产品详细介绍: 规格 1 主动散热版 被动散热版 产品 SKUA-U280-A32G-DEV-G3A-U280-P32G-PQ-G3 卡总耗电量 2 225W 225W 散热解决方案主动被动 重量1187g 1130g 外形尺寸全高、全长、双宽度全高、 长、双宽度 网络接口2x QSFP28 PCIe 接口 4,5 Gen3 x16, Gen4 x8, CCIX HBM2 总容量8 GB HBM2 带宽460 GB/s 查找表 (LUT
38、s)1,079K 寄存器2,607K DSP slices9,024 UltraRAMs960 DDR 总容量32 GB DDR 最大数据率2400 MT/s DDR 总带宽38 GB/s 用 PCIe Gen3 x16,设计用于加速高计算强度应 用,如机器学习、数据分析和视频处理。 注释 : 1225W PCIe CEM 卡通过标准连接器 12V 电 源获取 65W,通过 AUX 连接器 12V 电源获取另外 150W。此卡上不使用标准连接器提供的 3.3V 电源。 CEM 卡需将 150W PCIe AUX 电源线缆连接到本卡。 中国人工智能产业发展联盟 云端 / 数据中心 13 注释 :
39、 1. 规格适用于量产 U280 卡。U280 ES1 卡规 格和功能的任何差异都记录在 U280 ES1 已知问题 赛灵思答复记录 71975 中。 2. 225W PCIe CEM 卡通过标准连接器 12V 电 源获取 65W,通过 AUX 连接器 12V 电源获取另外 150W。此卡上不使用标准连接器提供的 3.3V 电源。 CEM 卡需将 150W PCIe AUX 电源线缆连接到本卡。 3. 被动散热卡和主动散热卡都符合部署条件。 主动 DEV 器件编号包含一条 USB 线用于开发。如 需了解有关不含 USB 线的主动卡的批量订购选项的 芯片 名称 功耗内存带宽上市时间 深度学习计算
40、能力 工艺 INT8FP16FP32 Alveo U50 (VU35P ) 50W8GB316GB/s2019 年 8 月16.2/ 16nm UltraScale Alveo U200 (VU9P ) 100W64GB 77GB/s2018 年 10 月18.6/ Alveo U250 (VU13P ) 110W64GB77GB/s2018 年 10 月33.3/ Alveo U280 (VU37P ) 100W/2018 年 11 月24.5/ 信息,请联系您当地的赛灵思销售代表。 4. PCIe 接口可以配置为支持各种链接宽度和速 度。最高为 Gen3 (8 Gt/s) x16、Gen4
41、 (16 Gt/s) x8 或 以 16 GT/s x8 运行的 CCIX。PCIe 接口还可以 配置 为双 x8 接口,并连接到支持 PCIe 分叉的主机。 5. 此块在兼容模式下以 16.0 Gt/s (Gen4) 的速度 运 行。 请 参 阅UltraScale+ Devices Integrated Block for PCI Express LogiCORE IP 产品指南 (PG213) 了 解兼容模式的详情。 【专利状态】(未提供) 【产品信息】 中国人工智能产业发展联盟 14 AI 芯片技术选型目录 2.2.2 中科寒武纪科技股份有限公司 - 寒武纪思元 100 芯片名称功耗内
42、存带宽上市时间 深度学习计算能力 工艺 INT8FP16FP32 思元 10075w8GB/16GB102GB/s2018 年 05 月32TOPS16TFLOPS /16nm 【产品信息】 【技术概述】 为云端推理提供运算能力支撑。 【技术指标】 INT8 算力 32TOPS, 内置硬件编解码引擎 【应用案例】 计算机视觉、语音识别、自然语言处理。 【产品特征 / 技术特点】 1通用智能,支持计算机视觉、语音识别、 自然语言处理等多模态智能处理; 2针对深度学习定制的指令集和处理器架构, 具有更优的能效比; 3完善软件开发环境 NeuWare,包括应用 开发、功能调试、性能调优等。 【专利状
43、态】(未提供) 中国人工智能产业发展联盟 云端 / 数据中心 15 2.2.3 中科寒武纪科技股份有限公司 - 寒武纪思元 270 芯片名称功耗内存带宽上市时间 深度学习计算能力 工艺 INT8FP16FP32 思元 27070w16GB102GB/s2019 年 06 月128 TOPS/16nm 【技术概述】 为高能效比 AI 推理设计的数据中心级 PCIe 智能加速卡。 【技术指标】 支持多种精度,比上一代加速芯片计算能力提 高 4 倍,INT8 算力 128TOPS。 【应用案例】 广泛支持视觉、语音、自然语言处理以及传统 机器学习等高度多样化的人工智能应用,帮助 AI 推理平台实现高
44、能效比。 【产品特征 / 技术特点】 1支持 INT16、INT8、INT4、FP32、 FP16 多种精度; 2内置视频和图片编解码器,有效降低 CPU 前处理负载和 PCIe 带宽占用; 3计算弹性,支持多类神经网络,寒武纪 Neuware 软件栈部署推理环境; 4可编程,基于 Bang 语言编程环境可对计 算资源定制,满足多样化需求。 【专利状态】(未提供) 【产品信息】 中国人工智能产业发展联盟 16 AI 芯片技术选型目录 【技术概述】 BM1684 是比特大陆面向深度学习领域自主 研发的第三代张量处理器(TPU),是聚焦视频图 像分析的云端及边缘的人工智能推理芯片。 【技术指标】
45、1. 芯片:BM1684 聚焦视频图像分析,是云 端及边缘的人工智能推理芯片; 2. AI 算力:17.6TOPS INT8,Winograd 卷 积加速下最高可达 35.2TOPS,实测推理性能较上 一代提升约 5 倍以上; 3. AI 架构:本芯片基于自主研发的 TPU 架 构; 4. 典型功耗:16W; 5. 视频解码:支持 H264 / H265 解码,最 大分辨率 8192x8192,支持 4K/8K。H264 和 H265 解码都支持 32 路高清 30FPS 1080P, 可处理数十路视频智能分析全流程; 6. 图像解码:支持 JPEG 解码和编码,均可 支持 480 张 / 秒
46、 1080P; 2.2.4 北京比特大陆科技有限公司 - 比特大陆算丰 TPU 芯片 BM1684 7. CPU:八核 A53,主频 2.3GHz; 8. 内存:LPDDR4X,带宽 68.3GB/s; 9. AI框架支持:Caffe, Tensorflow, PyTorch, MXNet,PaddlePaddle 飞桨等; 【应用案例】 1. 北京海淀城市大脑中的 AI 计算推理,百度 大脑 Paddle TPU 计算集群,处理千路级别的高清视频结 构化。 2. 福州长乐区的 AI 算力中心 TPU 计算集群,处理上千路的高清视频结构 化、人脸识别等。 3. 福州城市大脑的 AI 计算推理
47、TPU 计算集群,处理千路级别的高清视频结 构化。 4. 优必达(Ubitus)的互联网云端游戏 AI 加速 TPU加速游戏中的图像特征提取, 画面增强, 超分辨率等。 5. 某新零售客户 中国人工智能产业发展联盟 云端 / 数据中心 17 新零售货柜的边缘计算盒子,可进行商品自动 识别。 【产品特征 / 技术特点】 1. BM1684 芯片技术特点是: 1)TPU 芯片架构自主研发,相关专利申 请达到 270 项以上; 2)性能功耗比高,在 16W 情况下,最 高可达到 35.2T 性能(Winograd 加速); 3)视频解码路数多,支持 32 路 H264 和 H265 高清 30FPS
48、 1080P 硬解码; 4)视频全流程处理能力强,可达到 1632 路典型视频结构化 / 人脸分析路数; 5)AI 工具链完备,Caffe, Tensorflow, PyTorch,MXNet,PaddlePaddle 都支持; 6)部署场景灵活,云端和边缘均可部署; 7)使用灵活,可工作于 PCIE 从设备模 式或者 SOC 主设备模式; 2. 板卡产品特色: 1)75W 半高半长 PCIE 小卡,峰值算力 105.6T,无需外接供电; 2)宣称其性能赶上并部分超越英伟达推 理 GPU T4; 3)视频解码路数多,96 路高清视频 30FPS 解码; 3. 模组产品特色: 1)AI 边缘计算
49、模组,17.6T/35.2T; 2)视频解码支持 32 路 H264 和 H265 高清 30FPS 1080P 硬解码; 3)视频全流程处理可达到 1632 路典型 视频结构化 / 人脸分析; 4. 盒子产品特色: 1)AI 边缘计算盒子,17.6T/35.2T; 2)视频全流程处理能力可达到 1632 路 典型视频结构化 / 人脸分析; 3)可室外部署,无风扇散热,-20至 +60宽温; 4)接口支持 USB/HDMI/RS-485/RS- 232 等; 【专利状态】 比特大陆自主研发的 TPU 芯片,自主研发架 构,相关专利申请达到 270 项以上; 芯片名称功耗内存带宽上市时间 深度学习计算能力工艺 INT8FP16FP32 12 nmBM168416W 12GB LPDDR4X 68.3GB/s2019 年 9 月 17.6T ( 普通 模式 );35.2T (Winogra