1、 异构融合计算技术白皮书(2023年)工业和信息化部电子第五研究所 2023年 9月I 编写者 参编单位:浪潮电子信息产业股份有限公司、上海矩向科技有限公司、中国电信研究院、清华大学、中国科学院软件研究所、国防科技大学、复旦大学、中国长城研究院、中国电子技术标准化研究院、曙光信息产业(北京)有限公司、同方计算机有限公司、上海熠知电子科技有限公司、阿里云技术有限公司、中科院计算所、紫光集团前沿技术研究院 参编人员:杨晓明、陈平、刘建、熊婧、李冬、黄朝波、廉建芳、颜秉珩、林显成、董刚、王洲、蔡彦、陈小文、卢晶雨、任翔、刘娜、张政、李宁、崔士伟、徐扬、李璇、刘玉海、尹航、李阳、买强、张磊、张震宁、赵
2、立新、左明敏、周鹏、戴少鹏、杨蔚才、李亚军、伍海龙、陈硕、张阳、刘占民、王佑站、闫沛浩、张淑艳、杨攀飞 版权声明版权声明:本白皮书版权属于工业和信息化部电子第五研究所及参编单位,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:工业和信息化部电子第五研究所”。违反上述声明者,将追究其相关法律责任。II 编者序 近年来,自动驾驶、元宇宙、人工智能等应用不断创新发展,数据规模、算法复杂度以及算力需求爆发式增长。各类加速处理器已成为算力基础设施的重要组件,基于CPU+xPU 的异构计算系统逐渐成为各算力场景的主流架构。然而,随着异构计算系统的种类和数量越来越多,xPU
3、性能与灵活性难以兼顾、各 xPU 间计算孤岛问题难以协同、调试和维护成本增高等问题愈发凸显,亟需从异构融合计算方向加强理论研究和实践探索。以人工智能发展为例,Nature Electronics期刊在 2022年 4月的一篇文章显示:从 2018年开始,随着 AI 大模型应用的涌现,算力需求平均每 2 个月翻一倍;摩根士丹利估计“2022 年谷歌的 3.3 万亿次搜索,平均成本约为每个 0.2 美分”,John Hennessy 表示“基于大模型搜索的成本是标准关键词搜索的 10 倍”。需求的变化和成本的约束,再加上NoC(Network-on-Chip)和 SiP(System in Pac
4、kage)等新芯片技术的赋能,必将推动算力基础架构的变革。计算架构已逐渐从目前各自为政、孤岛式的异构计算,走向异构融合计算。同时,以系统设计为中心,按照应用需求来设计、定义和规划计算架构,推动多层级技术的融合已成为当前的最佳可行方案。狭义的异构融合计算,指的是多种不同类型、不同架构处理器组成的计算架构。广义的异构融合计算,是指通过将处理器、芯片、硬件设备、操作系统、编程框架、编程语言、网络通信协议、数据中心等不同层次、不同类型的计算技术进行整合优化,以实现多种异构计算资源的高效利用。本白皮书旨在探讨异构融合计算技术的内在机制、应用场景和发展趋势,通过概述计算领域相关概念,回顾计算架构发展历程,
5、分析了异构计算技术的发展现状及面临的主要问题,从硬件层面(芯片级、设备级)、软件层面(操作系统、编程框架)、系统层面分别提出了异构融合计算技术的探索方案及演进方向,引出了异构融合计算技术的发展趋势,并介绍了异构融合计算领域相关的实践案例。同时,指出了异构融合计算发展面临的挑战:一是,处理器架构的限制,可扩展性和灵活性难以满足,计算孤岛问题凸显;二是,当前的编程框架、编程语言、及其他编译/调试工具,不足以支撑高效的异构代码编写、优化和管理;三是,系统集成和互操作性技术要求高,难以构建统一的系统视图以支持跨平台的开发和部署。在此,对参与本白皮书编制的各位专家表示衷心的感谢。我们相信,白皮书将为读者
6、提供一个新的视角和思考方式,希望读者能够结合实际应用场景,对异构融合计算相关技术进行深入探索和研究。白皮书内容,不可避免会存在诸多不足,恳请各界专家批评指正。III 推荐序 1 当今,数字化技术作为科技与产业新一轮变革的核心驱动力,正在加速各行各业转型升级,一个以计算能力为基础的万物感知、万物互联、万物智能的数字经济时代正加速到来。在这一进程中,算力作为数字经济的核心生产力,由单一算力演变为多样性算力,如何实现多样性算力的高质量协同,已成为新型算力基础设施领域亟需突破的关键问题。异构融合计算技术白皮书针对现有算力基础设施无法满足算力需求的问题,深入刨析了异构计算应用场景特点以及计算架构异构演进