1、超 异 构 计 算新一代计算架构黄 朝 波目录1.微观计算和宏观算力2.计算架构的发展现状和面临的挑战3.计算从异构走向超异构4.Intel、NVIDIA以及高通的超异构布局5.为什么是现在?1.1冯 诺 依 曼 架 构一切系统的运行,可以归一到计算:系统由输入、计算、输出三部分组成。冯诺依曼架构是计算机系统经典模型,由控制器、运算器、存储器、输入设备和输出设备五部分组成。所有各类处理引擎,都依然遵循冯诺依曼架构的指导思想;所谓打破冯诺依曼架构,是无的放矢。输入设备输出设备内存中央处理单元控制器运算器冯诺依曼架构数据暂存控制单元计算/数据单元处理引擎模型输入输出1.2 摩尔定律 基于CPU的摩
2、尔定律已经失效:2015年后,CPU性能提升,每年只有不到3%,要想性能翻倍,需要20年。2021年12月,Intel SVP Raja Koduri表示:要想实现雪崩和头号玩家中天马行空的体验,需将现在的算力至少再提升1000倍。业务需求驱动:层出不穷的新应用,以及蓬勃发展的已有应用,都需要不断增强的算力来支撑。摩尔定律是行业KPI:一个公司或产品,如果能达到或超过摩尔定律,就能够生存;如果达不到,就只能走向消亡。对计算性能的追求,永无止境!元宇宙,也不例外!摩尔定律一直有效,驱赶着行业持续前进!摩尔定律:每18个月,CPU性能就会增加一倍。1.3软 件 和 硬 件 指令是软件和硬件的媒介,
3、指令的复杂度(单位计算密度)决定了系统的软硬件解耦程度。按照指令的复杂度,典型的处理器平台大致分为CPU、协处理器、GPU、FPGA、DSA、ASIC。从左往右,单位计算越来越复杂,性能越来越好,而灵活性越来越低。任务在CPU运行,则定义为软件运行;任务在协处理器、GPU、FPGA、DSA或ASIC运行,则定义为硬件加速运行。CPUGPUFPGACo-ProcessorASICDSA更高的灵活性更低的性能更低的灵活性更高的性能软件硬件100%软件100%硬件1.4性 能 和 算 力1.指令复杂度:单位指令中计算的密度。想提升性能,就需要把任务的运行平台从CPU切换到其他加速引擎。但这样,会损失
4、通用灵活性。2.运行频率:电路在1秒钟的时钟周期变化数量,跟电路的关键路径和工艺相关。想提升频率,需要优化电路设计,并选择更先进的工艺。3.并行度:多个并行的处理。需要更高的集成度,并行更多的处理引擎。4.输入/输出:不成为性能瓶颈,提高I/O与计算的匹配程度。5.处理器数量:实现处理器的更大规模落地。均衡性能和灵活性,实现总算力最大。6.利用率:优化宏观算力利用率。通过云/边缘计算、超云、云网边端融合等手段,优化算力利用率,降低算力成本。“性能”和“算力”两个概念是一致的,区别在于“性能”是微观的概念,而“算力”是宏观的概念。公式公式1 1:(单处理器)性能=指令复杂度(单位计算密度)x 频
5、率 x 并行度公式2:实际总算力=总算力 x 利用率=指令复杂度(单位计算密度)x 频率 x 并行度 x 处理器数量 x 利用率1.5万 物 互 联互联网由终端、云端及边缘端组成。边缘端是代理层,代理云端为终端提供服务。终端是现实世界(包括我们人类)的接入层:终端是互联网大系统的I/O,负责现实世界和虚拟世界的交互。1.6计 算 节 点1.7汽车芯片:从小系统到复杂大系统从 分 布 到 集 中ECU阶段:分布式的小系统。数量众多(100+个,高端汽车甚至超过300个)的MCU小系统组成,每个ECU无OS或RTOS。DCU阶段:把相近的功能整合,形成功能域,采用域控制器DCU,一辆汽车大约需要1
6、0颗左右DCU芯片。DCU通常支持Linux等智慧型OS,是典型的SOC系统。集中式超级终端阶段:完全高度集成的芯片,一辆汽车2颗左右芯片。更高性能、更高集成度。不仅仅需要支持智慧型OS,还需要支持虚拟化和微服务,需要通过虚拟化进行功能域划分和隔离,传统SOC架构无法满足需求。2.1计算从串行走向并行所有系统的活动,可以归一到计算。系统由输入、计算、输出三部分组成。计算从串行走向并行,处理器从单核走向多核。2.2再 从 同 构 并 行 到 异 构 并 行云计算异构加速主要用于业务应用,权衡1:既要保证加速的性能,还要考虑加速的弹性。权衡2:独立或集成。CPUsCPUsCPUsCPUCPUsCP