《中国智能计算产业联盟:2023国家“东数西算”工程下算力服务发展研究报告(49页).pdf》由会员分享,可在线阅读,更多相关《中国智能计算产业联盟:2023国家“东数西算”工程下算力服务发展研究报告(49页).pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、 1国家“东数西算”工程下算力服务发展研究报告国家“东数西算”工程下算力服务发展研究报告出品单位:支持单位:单志广 张云泉 何宝宏 张广彬 著 3国家“东数西算”工程下算力服务发展研究报告顾问:陈润生 陈国良 郑纬民 袁国兴主编:单志广 张云泉 何宝宏 张广彬执行主编:安静 王海峰编委:沈文海 陈学斌 方娟 贾海鹏 赖能和 袁良 李婧颖 张延强 戴彧 徐凌验 舍日古楞 王丹丹 赵浩鸿 陈栩 刘殷 宋心荣 涂菲菲 张翼 张广婷特别鸣谢:清华大学 益企研究院参编单位:国家信息中心信通院云大所中科院计算所清华大学国家气象中心国家“东数西算”工程下算力服务发展研究报告编写委员会 4目录目录 CONTE
2、NTSP5第一章算力服务在算力经济中的定位P6一、算力经济成为新一轮经济发展抓手P6二、算力服务形成分析P9三、算力服务与云计算服务的区别P13 第二章算力服务发展的主要挑战P14一、“东数西算”背景下的新挑战P17二、算力网络的智能调度P18三、算力服务复合型人才系统构建P20四、算力服务标准确保产业健康发展P21 第三章算力服务产业链可持续发展路径 P22一、算力服务产业链商业模型P23二、多样性算力技术创新发展路径P25三、大模型时代的算力服务演进P29四、构建软硬协同的高性能、安全的公共算力设施P31五、先进制冷技术演进发展P35六、算力网络优化算力布局P40七、算力网络不同路线实践P
3、43 第四章面向 2030 年算力服务展望P44一、算力服务的综合价值展望P46二、算力服务促进算网深度融合带来算力服务变局 5国家“东数西算”工程下算力服务发展研究报告CHAPTER1算力服务在算力经济中的定位 6第一章算力服务在算力经济中的定位一、算力经济成为新一轮经济发展抓手算力作为最为重要的生产力之一,已逐步成为和水、电、燃气一样的基础资源。特别是 ChatGPT 的爆火出圈,以大算力、大模型、大数据为核心的生成式人工智能(GAI)引发全社会广泛关注,极大地拉动了对算力的需求,进一步“引爆”了算力服务市场。2018 年,张云泉博士正式提出“算力经济”这个名词,最初定义的维度是比较简单的
4、。首先计算要成为算力经济的核心,未来,以计算能力来衡量一个地方或地区的数字经济发展水平,使之成为一个很重要的指标。“东数西算”世纪工程的发布正式开启了算力经济时代,一个地区的算力产业是不是发达,也意味着数字经济是不是有机会,算力经济也成为西部地区新一轮经济发展的强力抓手。狭义的算力经济是指与算力强关联的算力服务产业链,包括算力设施提供者、算力生产者、算力运营者、算力消费者等 4 类参与者。他们共同闭环成为一种商业模式。随着认识的深化,“算力经济”的内涵日益丰富、深化和拓展,即算力+。凡是可以用到算力的国民经济的各个方向单元,都是算力经济的范围。只要以算力为核心生产要素,以算力为引擎,就都是广义
5、的算力经济。算力经济逐步成为数字经济的重要组成部分,并在数字经济中的比重会越来越大。综上所述,围绕算力本身产生的算力服务产业,狭义的算力经济指算力服务业产业链;广义的算力经济为数字产业化、产业数字化、城镇数字化提供各种基础设施、支撑保障的新模式、新业态,也就是算力+产业。二、算力服务形成分析狭义的算力经济是指与算力强关联的算力服务产业链,包括算力设施提供者、算力生产者、算力运营者、算力消费者等 4 类参与者。他们共同闭环成为一种商业模式。随着认识的深化,“算力经济”的内涵日益丰富、深化和拓展,即算力+。CHAPTER1 算力服务在算力经济中的定位 7国家“东数西算”工程下算力服务发展研究报告中
6、国高性能计算机 TOP100 排行榜已经发布了 20 多年,行业一直通过排行榜观察中国超级计算产业的发展趋势。到 2021 年,在 TOP100 的前 10 名有 7 台机器,它们不是专门服务某些行业,而且这些机器没有具体的应用目标,是公司买过来之后专门用于售卖算力的,而且这些机器性能很强。面对这个新出现的状况,TOP100 的专家委员定义了一个新领域叫算力服务业。2022 年,算力服务的性能指标相比上一年已经翻倍,增长速度很快。算力服务是以云资源接入和一体化调度机制为基础,以算力网络为连接,以云计算、人工智能、大数据等技术为支撑,将异构算力统一输出管理,为用户提供通用算力、智能算力、超算算力
7、等多样算力资源和存储资源,以及算力发现、供需撮合、交易购买、智能调度等综合服务,本质上是算力的供给方式。随着算力服务的不断演进发展,呈现“四化”特征:图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告 8一是便捷普惠化。用户不必关注复杂的底层技术和庞大的架构,无需购买服务器,即可“随时、随地、随需”享受便捷的一站式服务,实现算力资源人人可得、人人可用、人人适用。二是智能泛在化。运用虚拟化、容器化等技术,将大规模、异构算力转化为标准化算力单元,通过适应性策略和敏捷性框架对算力资源进行精准匹配,满足敏捷开发、快速部署需求。三是灵活定制化。以弹性方式灵活调度算力资源,并结合不同用
8、户的使用场景和使用需求提供个性化的服务方案。四是安全可信化。一方面,通过对算力提供方的资质核验及可信度评估,从源头上保证算力资源的安全可信。另一方面,通过对算力使用过程的监管,保证算力使用的全程流程可追溯。图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER1 算力服务在算力经济中的定位 9国家“东数西算”工程下算力服务发展研究报告研究表明,国家计算力指数与 GDP 的走势呈现出显著的正相关,计算力指数每提高 1%,数字经济和 GDP 分别增长 3.5和 1.81,而且该趋势预计将继续保持到2025 年。全球算力竞争日益白热化,算力服务正在成为数字经济发展的新引
9、擎和各国战略博弈的关键要素。从全球看,算力总规模保持高速稳定增长,2021 年全球计算设备算力总规模达到 615 EFlops,增速达到 44%,预计 2030 年全球算力规模达到 56 ZFlops2。全球主要国家和地区加大算力布局,美国不断加强量子计算、超级计算、类脑计算等前沿算力布局,力保人工智能等关键领域的全球领导地位;欧盟持续加码算力基础设施建设和关键技术研发投入,陆续发布 塑造欧洲的数字未来、2030数字罗盘、欧洲工业战略 等,推动构建安全、高性能和可持续的数字基础设施,助力企业数字化转型;日本坚持以应用和绿色并重,制定人工智能(AI)及量子技术等尖端技术相关的国家战略,并频繁强调
10、振兴半导体产业。从我国看,国家对算力服务的重视程度不断提升,国家发展改革委、中央网信办、工业和信息化部、国家能源局四部委先后联合印发 关于加快构建全国一体化大数据中心协同创新体系的指导意见全国一体化大数据中心协同创新体系算力枢纽实施方案,推动汇聚联通政府和社会化算力资源,构建一体化算力服务体系。在各类政策举措的强力加持下,我国算力服务发展成效显著,梯次优化的算力供给体系初步构建。数据显示,近年来我国算力产业规模持续快速增长,年增长率近 30%。截至 2022 年底,我国算力总规模达到180EFLOPS,居全球第二3。电信运营商、地方政府、企业、行业机构等纷纷推出算力服务平台,已发布或建设算力平
11、台超 10 个,旨在通过整合不同来源、类型和架构的算力资源,提供算力支撑服务。三、算力服务与云计算服务的区别算力服务是云计算服务的升级版,除了要提供虚拟化、分布式计算等云计算服务外,还包括算力调度、云网融合、供需匹配等新要求。为了更好理解两者的区别,下面从云计算和算力服务的发展背景和历程进行说明。1.IDC、浪潮信息、清华大学全球产业研究院,2021-2022 全球计算力指数评估报告2.中国信通院,中国算力发展指数白皮书(2022 年)3.年增长率近 30%我国算力总规模全球第二,https:/ 10从单机计算到云计算。云计算将计算能力(指广义的数据存储和处理能力)抽象化,通过互联网向用户提供
12、服务,用户在云计算平台上按需购买、使用和管理各种计算资源,而无需关心其背后的复杂实现细节。在云计算出现前,从用户的角度常存在以下痛点。一是扩容难,企业(或个人)用户自行购置运维的数字基础设施在扩容算力时,从评估、规划到实施、调试需要较长时间周期,往往以周或月计,难以及时匹配快速变化的业务需求。二是利用率有限,因扩容难,用户在应对快速变化的业务需求时通常采用“留足算力冗余”的方式,以增加投入换减少扩容次数,这也造成了算力闲置现象。此外,若用户业务收缩,自行购置运维的算力难以缩容,将进一步加剧算力闲置。三是需要专业技术团队负责运维。随着企业应用需求日趋复杂,企业的数字基础设施的架构也变得复杂,为维
13、护数字基础设施正常运行,企业需要扩大运维团队的规模和提高技术水平,提高了企业运营的人力成本。云计算以其可按需扩容、按使用计费、由服务商团队提供专业运维的特点,一定程度上解决了上述痛点。从云计算到算力网络。随着 5G 与人工智能时代的发展,各类新型应用不断涌现,数据产生量呈爆发式增长,智能计算被广泛应用于工业、零售、医疗、教育等行业领域,带图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER1 算力服务在算力经济中的定位 11国家“东数西算”工程下算力服务发展研究报告“一体化算力服务”由中科曙光率先提出,该服务集“算力”“算能”“算网”三方面于一体。“计算优先网络
14、”由华为提出,“算力感知网络”由中国移动提出,“算力网络”由中国电信、中国联通倡导,CCSA TC3 会议将三者统一为“算力网络”。来算力需求的几何级数级增长,并对算力的实时性、可靠性、安全性等提出更高要求。当前以数据中心为单元的云计算组织方式已逐渐无法为社会发展提供丰沛的、高质量的算力供给。一是无法有效组织边缘计算节点。二是各数据中心、智算中心、超算中心等云计算中心间无法有效协同。三是云计算中心和网络间缺乏协同,难以保证算力传输的实时性和可靠性。在此背景下,算力网络应运而生。算力网络旨在通过泛在算力与网络的融合,突破数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制,将大量散
15、落在全网中的各类型算力(通用计算、智算、超算等)汇聚成统一的计算资源池,进行管理和调度。算力网络以构建算网一体的新型智能、高效、按需的算力服务体系网络为目标,实现算力和连接的全局优化与高效协同,解决不同类型节点的算力分配与资源共享需求难题,形成 CPaaS(算力即服务,Computing Power as a Service),满足国家与行业需要,促进我国数字经济的发展。“计算优先网络”、“算力感知网络”与“算力网络”是在算力网络的标准化研究制定过程中,不同时期由不同企业提出和倡导的概念。“一体化算力服务”由中科曙光率先提出,该服务集“算力”“算能”“算网”三方面于一体。“计算优先网络”由华为
16、提出,“算力感知网络”由中国移动提出,“算力网络”由中国电信、中国联通倡导,CCSA TC3 会议将三者统一为“算力网络”。从云网融合走向算网一体。从算力网络的建设目标与技术发展理念来看,算力网络是通信、计算、存储以及智能化调度的高度融合。算力网络以泛在算力资源为基础,网络通信为纽带,智能化调度为核心,实现网、云、边、端、业务的高效协同与适配,满足行业高差异化算力服务需求。云网融合和算网一体是实现此目标的两个相辅相成的 12发展阶段。对于云网融合,网络是以云为中心的。从云的视角看,一云多网对网络的主要需求是连通性、开放性,对服务质量的要求是尽力而为,网络起到支撑作用,云作为算力提供侧是价值中心
17、。对于算网一体,网络是以用户为中心的。从用户的视角看,需要网络支持低时延、安全可信通信,对服务的质量要求是确定性,作为算力提供测的云和作为算力运输侧、用户需求感知测的网络共同成为价值中心。最终,算力网络的建设将统一融合算力与网络,同时突破算力与传统网络的技术限制,构建“统一调度、弹性适配”的算力网络平台,形成端到端业务开通以及可视、可管、可控能力,实现全国范围内跨越组织、业务、运维、运营、应用的全局规划以及算力的高效协同调度与应用,为我国数字经济打下坚实的算力基础。CHAPTER1 算力服务在算力经济中的定位 13国家“东数西算”工程下算力服务发展研究报告CHAPTER2算力服务发展的主要挑战
18、 14第二章算力服务发展的主要挑战一、“东数西算”背景下的新挑战随着“东数西算”工程的实施,算力基础设施建设迎来快速发展机遇的同时,也对算力服务提出了更高的要求。当前,在以数据中心为主要载体、跨区域算力需求不断增长的背景下,算力服务仍面临资源使用效率不高、场景实现成本不菲、网络时延传输不畅、供需匹配不力、体系安全布局不密等现实挑战。资源使用效率不高。当前,数据中心建设规模迅速扩大,国内市场供大于求、同质化竞争问题突出,存在盲目投资和经营风险。预计到2025年国内IDC机架将是现在3倍。西部 6 省市(宁夏、甘肃、内蒙古、贵州、四川和重庆)规划远超预期,2025 年机架有望增至 362 万架(5
19、 年增长 9 倍),全国占比达到 41%(5 年提升 30pp)4。但与此并存的是现有数据中心资源利用不充分。一方面,国内现有数据中心存在“重建轻用”现象,造成了数据中心资源的浪费。2021 年中国数据中心市场报告显示,目前全国数据中心整体上架率仅为 50.1%。以上海为例,据2020-2021 年上海及周边地区 IDC 市场研究报告显示,2020 年上海地区 IDC 机房平均空置率为 16.4%,部分数据中心空置率甚至超过了40%5。另一方面,全国数据中心空间利用率尚不均衡,华东、华北、华南地区数据中心上架率约在 65%至 68%,华中地区为 39%,而西部地区的西北和西南分别为 34%和
20、41%,低于平均水平,远低于东数西算起步期上架率水平(65%)6的建设目标。场景实现成本不菲。一是网络传输价格较为高昂。“东数西算”各类场景需要大量的网络传输服务进行支撑。然而,目前网络通信价格仍然偏高。据测算,带宽为 1Gbps 的网络传输专线费用约为 16 万元/月,超过某些计算场景总成本的 75%,若提升带宽至4.https:/ 算力服务发展的主要挑战 15国家“东数西算”工程下算力服务发展研究报告2.5Gbps 或 10Gbps,其费用将进一步大幅增长,可能高于东部企业可以承受的网络费用成本7。二是部署成本难现优势。除了网络传输成本,“东数西算”涉及的算力网络建设成本也比较高。比如如果
21、在北京、内蒙古租用同样的机架,叠加长途带宽费用后,内蒙古园区相比北京园区可能并不具有成本优势。同时,西迁意味着业务架构需要重构,在IT 侧技术和投资方面存在新的压力。网络时延传输不畅。西部数据中心向东部提供算力,因距离原因存在网络时延。根据 全国一体化大数据中心协同创新体系算力枢纽实施方案,数据中心端到端单向网络时延原则上在 20 毫秒以内;车联网、联网无人机、智慧电力、智能工厂、智能安防等实时性要求高的业务需求,时延原则上在 10 毫秒以内8。经测试,贵阳到东部某城市的时延最低为 36 毫秒,通过网络加速等技术手段,最低可降至 28 毫秒,但距离承接东部时延敏感算力需求还有较大差距9。7.范
22、灵俊,郑卫城,彭亚松等.“东数西算”工程落地的关键问题分析与对策建议 J.中国信息安全,2023(02):100-104.8.关于印发全国一体化大数据中心协同创新体系算力枢纽实施方案的通知 https:/ J.中国信息安全,2023(02):100-104.图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告 16“数”“算”供需匹配不力。一是算力资源调度问题。“东数西算”涉及的数据类型多样、业务需求各异。CPU、GPU、FPGA、DPU、专用加速器等对处理不同种类的数据各有优势与劣势,也有运营成本高低之分10。目前,在异构算力层面仍然缺乏整体有效调度机制,面对各种东部城市不
23、同的算力需求场景时,难以快速合理精准地匹配算力资源,网络性能、算力实时性、数据安全等各方面仍面临挑战。二是算力网络长效运行机制仍需探索。算力网络的核心是复杂巨系统的多资源联合优化,复杂巨系统的多目标联合优化,确保实时的、全网的、面向任务调度的 QoS11。与电力系统完善的分级调度不同,算力网络调度机制实践难度很大。如何开展多层级的面向性能、价格、效益等多方面的测算,形成真正的应用需求供给和可持续的长效动力机制仍需探索。体系安全布局不密。一是国产化适配与替代问题。2022 年 8 月 31 日,美国政府下令英伟达、AMD 等停止向中国销售部分高性能 GPU。GPU 芯片可被用于加速人工智能任务,
24、是 AI 系统训练的关键,也是“东数西算”诸多场景的基础。在这样的环境下,“东数西算”工程对国产化基础软件服务能力提出更高要求。而目前部分应用仍缺少相应的国产化软件适配、灵活部署以及服务能力,难以针对各类场景形成针对性的解决方案。二是数据安全问题。“东数西算”工程八大枢纽节点协同联动,工程体系庞大、结构复杂,算力网络的海量数据、多种类算力资源与网络基础设施对数据安全带来了全新挑战和更高的要求。一方面,算力网络中的巨大数据交换共享形成更大吞吐量,容易增加网络面和暴露面,还易面临篡改和窃取风险。另一方面,“东数西算”背景下原本独立运行的业务系统和网络需要对接,有可能造成系统应用和数据暴露面增加,催
25、生更多数据安全风险。三是网络安全问题。开源组件在每个行业都被广泛使用,并且是当今所有应用程序的构建基础。应用安全公司 Synopsys 最新发布的2023 年开源安全和风险分析(Open Source Security and Risk Analysis,OSSRA)报告指出,绝大多数代码库(84%)至少包含一个已知的开源漏洞,相较去年增加了近 4%12。在“东数西算”工程中涉及的数据开放共享、算力开放应用、算网协同运营等环节,具有支撑作用的网络基础设施以及网络环境方面的安全防护能力存在挑战。10.范灵俊,郑卫城,彭亚松等.“东数西算”工程落地的关键问题分析与对策建议 J.中国信息安全,202
26、3(02):100-104.11.单志广,摸清家底数算匹配智能调度,经济日报,2023 年 2 月 20 日,11 版智库。12.Analyst Report Open Source Security and Analysis Report|Synopsys https:/ https:/ 算力服务发展的主要挑战 17国家“东数西算”工程下算力服务发展研究报告二、算力网络的智能调度算力调度是解决算力供需矛盾、算力网络传输问题、算力资源普惠问题的新型能力体系。算力调度根据算力资源提供方的供给能力和应用需求方的动态资源需求,整合区域内算力基础设施底层的计算、存储、网络等多维资源,基于算力调度平台对
27、算力资源进行一致性管理、一体化编排和统一调度,实现跨行业、跨地区、跨层级的算力资源的协同联动与精准匹配。2022 年,国家“东数西算”工程正式实施,算力资源的精准智能调度成为保障“东数西算”工程实施的关键核心问题之一。算力资源跨网、跨行业、跨区域调度。从算力布局看,构建国家一体化大数据中心体系和“东数西算”工程的实施,奠定了以国家算力枢纽为核心的全国一体化算力网络格局。“东数西算”工程覆盖地域广、涉及领域多,且需要多云之间、云数之间、云网之间的高效互联,和国家算力枢纽节点之间的相互配合以及考虑运营成本等问题。从算力服务业务角度看,不同场景下的计算任务对算力资源、算力规模、数据传输图片来源:算力
28、经济时代 数字中国万里行 2023 新型算力中心调研报告 18效率等侧重点各有差异,而节点间的高速互联、计算节点的增减、网络计算性能等均对数据流通效率和算力资源调度带来影响。围绕全国一体化大数据中心建设重大工程,在全国布局10个左右区域级数据中心集群和智能计算中心,以匹配双碳要求、资源高效利用的要求,通过算力网络智能调度实现算力的全网共享和布局优化,实现东数西算、东数西训、东数西存,使能数字经济的高质量发展。全国一体化大数据中心建设提出“国家枢纽节点之间进一步打通网络传输通道”“优化东西部间互联网络和枢纽节点间直连网络”“提升跨区域算力调度水平”,算力网络智能调度根据全域实时的算、网、数资源以
29、及云、边、端分布情况,灵活、动态地计算最优协同策略与调度路径,实现多云之间、云和数据中心之间、云网之间算网协同,算力资源跨行业、跨区域、跨层级的智能管控和统一协同调度。对多样性算力资源进行灵活按需匹配和调度。通用计算、人工智能计算、超级计算等多样性算力资源智能匹配与调度全面发展,自动驾驶、远程医疗、工业自动化以及高精度的物理模拟、大规模的社会科学模型等复杂应用场景对网络和计算资源的需求不断提升。算力网络智能调度涉及全局资源感知、资源采集、统一管控、统一注册/建模/度量、最优化灵活调度、计费与结算、生命周期管理等多方面,通过对全局异构算力资源自动感知,根据算力和网络部署状况,进行全局的编排调度,
30、面临多样性算力接入适配、算力资源调度路径、算力度量等问题,按需自动创建面向应用的全局多级算力资源自动分配调度、算网一体化服务编排、动态弹性算力和网络资源的协同调整,实现对泛在的多样化算力资源的统一管理和动态调度。三、算力服务复合型人才系统构建算力经济建设的核心是算力设施设计与建设,这离不开算力相关半导体人才梯队的搭建与培养,正如在 2023 年度中国大陆地区集成电路人才供需报告 所提到的,需要持续投入和产学研用一体式协同推进。一方面,高校、高职等相关学校,要建立“EDA-设计-流片-封测-系统应用”综合实践平台,培养行业上下游产业链相关人才和高中低阶人力培养体系,另一方面,企业应该加强与院校合
31、作推广订单式培养模式,形成人才合作及供需联动机制。一方面,多维度打造算力技术人才培养生态。算力是数字技术创新的高地,随着算力需求日益增长,对大数据、云计算和人工智能等相关技术领域人才供不应求。人社部CHAPTER2 算力服务发展的主要挑战 19国家“东数西算”工程下算力服务发展研究报告中国就业培训技术指导中心新职业在线学习平台发展报告指出,未来 5 年,大数据、云计算产业人才缺口将高达 150 万。弥补算力技术人才缺口的关键在于多维度打造人才培养生态。一是支持高校、科研机构设立大数据、云计算、人工智能等算力相关专业,加强专业人才培养。二是鼓励龙头企业、科研机构、高校联合成立算力研究机构,支撑人
32、才培养。如中国联通宁夏分公司、宁夏大学等单位共同发起成立“宁夏东数西算产融研究院”,下设产业规划研究中心、人才发展中心等,积极推进东数西算领域的前沿研究、人才培养。三是依托计算中心,强化创新人才培养。如武汉人工智能计算中心陆续孵化出紫东太初等大模型团队,而 2017 年成立的中科曙光书院,先后携手郑州大学、深圳理工大学等众多高校,在先进计算、人工智能、大数据等领域开展人才联合培养计划。此外,为响应教育部职业技术教育中心“1+X”证书制度试点工作,中科曙光推出的“人工智能系统平台实施”职业技能等级证书成功入选教育部全国第四批“1+X”试点证书名单。由中科曙光公司编著的“1+X”指定教材人工智能系
33、统平台实施中级顺利出版,切实推进人工智能等算力领域人才培养和发展。另一方面,汇聚群策群力营造算力应用人才培育生态。随着算力服务应用领域不断拓展,智慧能源、智慧医疗、智能网联汽车、智慧物流、智慧金融等特色应用层出不穷。不同场景对算力需求不同,在保证通用算力服务的同时,针对具体应用场景需求,充分优化专业应用性能是算力发展的方向。因此,各领域亟需算力应用复合型人才。可探索成立新型研发机构、举办计算应用大赛等多种方式营造算力应用人才培养生态。鼓励算力企业、应用企业、行业协会、高校、科研机构联合建立行业算力应用中心,培育算力应用人才。如苏州协鑫能源计算中心、中移铁通智慧铁路边缘数据中心等,聚焦特定行业应
34、用,在应用中培养复合型人才。计算应用大赛、计算应用论坛等也是促进高水平复合型算力应用人才培养的良好路径。如面向全社会科技从业者及爱好者的“先导杯”计算应用大奖赛,至今已连续举办三届,共吸引来自清华大学、北京大学等重点高校科研机构、知名企业的 3000 名选手 2300 支队伍参赛,很好发挥了对计算应用、科技创新的引领带动作用。20四、算力服务标准确保产业健康发展“十四五”国家信息化规划文件指出,建设完善一体化算力服务。加强云资源接入和一体化调度,推动政务、科学、教育、医疗等公共算力服务资源整合开放,构建低成本、广覆盖、可靠安全的公共算力服务,促进算力的普及应用。算力服务本质是以多样性算力为基础
35、,以算力网络为连接,以供给有效算力为目标的算力产业新领域,通过全新计算技术实现异构算力任务式统一输出,并与云、大数据、AI(人工智能)等技术交叉融合,最终将算力、存储、网络等资源统一封装,以服务形式(如API)完成算力交付。目前产业内虽进入算力服务相关技术快速落地期,但面向算力服务的定义、场景、需求与技术框架尚不清晰,亟需产业共同制定、研究相关标准规范。总体来看,结合算力服务核心内涵,算力服务的标准制定应当从基本框架、应用服务、技术能力、基础资源四个方面进行。一是基本框架,主要包括算力服务概念定义、服务化过程基本模型等内容,用于明确算力服务基本概念与流程要求;二是应用服务,主要包括多场景下的算
36、力服务化应用方式能力要求,如算力互联互通场景下的算力调度能力要求、网络互联要求等;同时也包括异构算力服务化平台应用能力要求,如高性能计算平台、智算平台等;三是技术能力,主要包括服务化技术能力相关要求,如编排调度、控制与转发、运营运维等方面,用于为上层服务化能力输出铺设中层技术基础;四是基础资源,主要包括如GPU、FPGA等在内的异构算力资源服务化应用能力要求,用于为算力服务输出多样化异构算力服务。图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER2 算力服务发展的主要挑战 21国家“东数西算”工程下算力服务发展研究报告CHAPTER3算力服务产业链可持续发展路
37、径 22第三章算力服务产业链可持续发展路径一、算力服务产业链商业模型算力经济时代,我国目前已经基本形成较为完整的算力服务产业链,算力服务产业链主要包含四类参与者:一是算力设施提供者,二是算力生产者,三是算力运营者,四是算力消费者;他们共同形成闭环成为一种商业模式。算力设施提供者主要是算力生产所需软硬件设备的供应方,主要涵盖芯片、操作系统、服务器生产、数据中心建设等资源供给的产业链角色,这些企业不直接生产算力,而通过从芯片生产、板卡集成、操作系统适配到服务器组装、应用软件开发等关键环节的生产要素流转,为算力直接生产者提供了丰富的资源选择与资源积累。算力生产者主要通过建设、购买或租用算力设施,以电
38、力支撑算力、存力和运力,实现对通用算力、智算算力、超算算力、存储和网络等算力服务支撑资源的供给。算力运营者主要对计算资源进行分配和管理,以满足计算任务的需求。提高计算效率,最大化利用计算资源。在贯彻落实国家“东数西算”工程要求中,东西部算力高效互补和协同联动的实现离不开算力调度。算力运营者主要是针对通用、智算、超算等不同客户的不同需求,设计异地、异构资源池调度引擎,实现不同厂商的异构资源池的算力图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER3 算力服务产业链可持续发展路径 23国家“东数西算”工程下算力服务发展研究报告动态感知与作业智能分发调度。算力运营者
39、的业务模式还包括在算力基础资源上进行服务化能力建设,并通过服务商 API 等方式完成算力供给的产业链角色,包含传统的云服务商、智能算力和超算以及算力网络服务商等。如云服务商的角色从在云服务产业链中的核心生产者,变成算力服务产业链里算力服务生产者中的一类,向下仍对接基础设施等供应商,向上支撑算力调度、算力交易等多个算力服务生产环节。算力网络服务商和算力调度者主要实现对算力、网络、存储等资源的服务化转化,通过算力编排、算力调度、算力交易技术实现算力到用户的服务化供给。算力消费者实际上就是算力服务应用方,如行业用户等,将实现算力赋能医疗、交通、教育、政务、金融、工业等千行百业产生直接的经济价值。二、
40、多样性算力技术创新发展路径近年来,随着智能制造、自动驾驶、数字金融、智慧医疗、区块链共识等数字技术应用场景的蓬勃发展,算力的多样化供给需求明显增强,除了传统的通用算力,对智能算力、超算算力的需求突飞猛进,除了传统的中心算力,对边缘算力的需求也与日俱增。算力服务迎来了多样化发展的繁荣期,结合不同应用场景需求的技术创新将加快推进。面向高性能算力新型硬件架构加速推广应用。工信部新型数据中心发展三年行动计划(2021-2023 年)提出,到 2023 年底,全国数据中心总算力超过200EFLOPS,高性能算力占比达到 10%。当前,数据中心 IT 基础架构正在面向高性能计算需求向新型硬件架构转变,越来
41、越多地采用 GPU、FPGA、ASIC 为代表的 AI加速芯片(基于传统芯片架构,对某类特定算法或者场景进行 AI 计算加速),神经网络处理器 NPU(Neural Processing Unit),以及先进 AI 芯片,如类脑芯片、通用 AI芯片 IPU(Intelligence Processing Unit)等。多样性计算需求,加速算力格局变换。基于 x86 的通用计算继续构建数字经济发展的基础,依然保持计算的核心地位。一方面继续提供更强的核心和更多的核心数满足客算力经济时代,我国目前已经基本形成较为完整的算力服务产业链,算力服务产业链主要包含 4 类参与者:一是算力设施提供者,二是算力
42、生产者,三是算力运营者,四是算力消费者;他们共同闭环成为一种商业模式。24户不同场景需求,如第四代 AMD EPYC 处理器基于业界领先的 5nm 制程工艺,提供多达 96 个“Zen 4”架 构核心、192 线程,以及最大 384MB 的 L3 缓存容量。另一方面,在 AI 应用的规模化部署和实践中发挥重要的作用。为了更加充分地利用 CPU 的资源,几年前英特尔就在 CPU 中内置针对 AI 进行加速的专用运算单元或指令集,英特尔第四代至强可扩展处理器新集成 5 种加速器,并搭配以更为简单易用、能够降低部署和优化难度的软件工具。目前云数据中心领域正在进行 x86+Arm 多元算力的布局。另外
43、,在运营商层面,Arm 架构也在基站领域快速发展,持续为 5G 发展添砖加瓦。在智能计算场景领域,以 CPU+AI 芯片(GPU、FPGA、ASIC)提供的异构算力,并行计算能力优越、互联带宽高,可以支持 AI 计算效力实现最大化,成为智能计算的主流解决方案。人工智能算法需要从海量的图像、语音、视频等非结构化数据中挖掘信息。大模型的训练、场景化的微调和推理应用场景都需要算力支撑。在大模型层面,以 GPU 等 AI 训练芯片为主,为 AI 计算提供更大的计算规模 和更快的计算速度。算力服务成为一种新的业态,将通用计算、智能计算、并行计算等多样性算力统一纳管和调度,屏蔽不同硬件架构差异,实现大规模
44、异构计算资源的统一调度,实现算力的普惠化。除了大模型,目前在 AI for Science 领域,人工智能正在给科学计算带来重大的范式革命。AI for Science 的数据来自各个学科的数据积累,模型来自各图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER3 算力服务产业链可持续发展路径 25国家“东数西算”工程下算力服务发展研究报告领域科学家发现的科学原理和规律;算法源自机器学习算法和数值方法等方面的创新;需要多样算力融合的综合型智能计算平台,通过分布式异构并行体系结构,实现多样算力的融合、优势互补,为 AI 训练、AI 推理、数值模拟等不同应用提供不同
45、算力,实现高精度到低精度算力的全覆盖、多种计算类型的全覆盖,以及 AI 训练+推理全覆盖。多元算力的多元开发生态体系相对独立,应用的跨架构开发和迁移困难,需通过开源、开放的方式建立可屏蔽底层硬件差异的统一异构开发平台。同时,当算力和网络的发展呈现一体共生之势时,从算网协同到算网融合,业务需求的变化会通过芯片、计算和存储等 IT 设备传导到网络架构层面,即数据中心作为基础设施也会相应的产生自上而下的变化。为此,除了算力网络,数字中国万里行考察期间也重点关注 DPU/IPU 乃至芯片间的互连,展现数据中心基础设施如何应对这些变化与挑战,更好的服务于用户,并可持续的良性发展。边缘计算成为集中式云计算
46、架构的重要补充。在工信部公布的 2021 年国家新型数据中心典型案例名单中,已有 12 个边缘数据中心入选。边缘计算是指将计算和数据存储移动到网络的边缘,主要用于支撑低时延业务应用,服务自动驾驶、智慧医疗等重点应用场景落地。传统的集中式云计算架构是通过互联网将计算资源和数据存储提供给用户使用。边缘计算和云计算相互补充,通过完善在云、边缘、现场终端不同层级的泛在智能算力体系,有助于实现更快、更低时延、更低成本的算力输出。三、大模型时代的算力服务演进大模型热潮下算力需求爆发,亟需建立高效率、大规模的智能算力基础设施。2022 年底 ChatGPT 横空出世,人工智能加速迈入大模型时代。自 2011
47、 年以来,全球人工智能模型参数规模呈几何式高速增长,已突破万亿级。随着参数量的急剧增长,计算规模越来越大,需要的硬件资源(内存、GPU)越来越多。据 OpenAI 统计,自 2012 年以来,业界最复杂的人工智能训练任务对算力的需求每 3 至 4 个月就会翻倍。据不完算力消费者实际上就是算力服务应用方,如行业用户等,将实现算力赋能医疗、交通、教育、政务、金融、工业等千行百业产生直接的经济价值。26全统计,我国人工智能大模型数量已超过 100 个13,大模型已成为推动人工智能能力提升和应用落地的重要方向,智能算力需求将在短期内集中爆发,一般的算力基础设施很快将难以胜任。当前我国智能算力还远远无法
48、满足潜在计算需求,据 IDC 预测,我国智能算力规模将持续高速增长,预计到 2026 年将达到 1271.4EFLOPS,年复合增长率达 52.3%14。我国智能算力分布在不同地区、不同主体,建立以人工智能芯片为主的高效率、大规模的智能算力基础设施已成为大模型发展面临的现实需求。同时,智算中心有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广的特点。一方面,智能算力需求呈现几何式增长,本地智算中心主要服务本地产业和科研机构,无法向全国提供算力服务。另一方面,为了提供相匹配的超大规模的算力支撑,通过算力的生产、聚合、调度和释放,支撑产业创新聚集,亟需构建云化的智能算力网络,通过情况和各地区的
49、需求情况进行算力动态调配,确保已建成的人工智能计算中心保持高效运营。ChatGPT 是 AI 大模型创新从量变到质变长期积累的结果,是通用人工智能(AGI,Artificial General Intelligence)发展的重要里程碑。以 GPT-4 为例,超大规模预训练模型展示了一条通向通用人工智能的可能方向,人们通过输入提示词和多模态内容,便可生成多模态数据。更重要的是,它可以用自然语言方式生成任务描述,以非常灵活的方式应对大量长尾问题和开放性任务,甚至是一些主观的描述。“大模型+大算力+大数据”成为迈向通用人工智能的一条可行路径,比如大模型技术是自动驾驶行业近年的热议趋势。自动驾驶多模
50、态大模型可以做到感知和决策一体化。在输出端,通过环境解码器可对 3D 环境进行重建,实现环境的可视化理解;行为解码可生成完整的路径规划;同时,动机解码器可以用自然语言描述推理的过程,进而使自动驾驶系统变得可以解释。而大规模深度学习模型的参数和数据量达到了一定量级,超大规模AI 大模型的训练一般必须在拥有成百上千加速卡的 AI 服务器集群上进行,需要相应算力的支撑。根据 OpenAI 的数据,GPT-3 XL 参数规模为 13.2 亿,训练所需算力为27.5PFlop/s-day。由于ChatGPT是在13亿参数的 InstructGPT 基础上微调而来,参数量与 GPT-3 XL 接近,因此预
51、计 ChatGPT 训练所需算力约为 27.5PFlop/s-day。同样,算力作为自动驾驶的基本要素,从视觉检测、传感器融合、轨迹预测到行车规划,上万个算法模型需要同时完成高并发的并行计算,需要更高性能的智算中心来完成训练、标注等工作。13.https:/ 中国人工智能计算力发展评估报告CHAPTER3 算力服务产业链可持续发展路径 27国家“东数西算”工程下算力服务发展研究报告作为算力的聚集点,云数据中心的规模化效应使得算力得以普惠化,用户按需采购算力、存储、带宽即可开展业务。随着国内大模型市场的快速发展对我国的基础算力提出更高的要求,没有算力基础,算法等发展难以为继。此时,云计算厂商的算
52、力基础设施优势凸显,大模型的爆发会导致训练的应用场景越来越多,对训练的需求大幅增长,如何保证算力不衰减,对算力的高带宽、存算一体等提出新要求,需要底层平台+分布式框架+加速算法的高效集成。2023 年,云计算厂商开始发布人工智能大模型。未来,云数据中心的核心依然是:让算力更加普惠,促使 AI 大规模普及。全方位的算力服务能力依然是云服务商竞争力的基石,算力基础设施的使用效率,会直接影响到云服务商的创新能力和盈利能力。另外,大模型是一场“AI+云计算”的全方位竞争,超千亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模
53、 AI 基础设施的支撑。因此,云服务商不断优化硬件基础设施提升算力效率,提供通用计算、智能计算能力,通过云统一管理多种算力,灵活调度算力资源,并形成完整的产业生态,推动新兴产业发展。智算中心是服务于人工智能的数据计算中心,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。2022 年,智算中心作为发展最快的一种算力供给形式,全球人工智能算力成为主要增量。在中国,智算中心发展尚处于初期阶段但发展迅速。从国家信息中心发布的智能计算中心创新发展指南来看,当前我国超过 30 个城市正在建设或提出建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓
54、展。智算中心建设目的促进产业 AI 化、AI 产业化,主要应用在城市治理、智能制造、自动驾驶等领域。2023 年火热的大模型计算的需求加速了算力的商业应用以及智算中心的发展。无论是智慧城市还是智能制造、无人驾驶、数字孪生等场景,除了要有数据支撑以外,还要和各领域、各场景的知识模型、机理模型甚至物理模型相叠加,形成基于人工智能的新应用和场景实现。以 AI 芯片为主的高效率、低成本、大规模的智能算力基础设施将成为训练 AI 大模型的前提。云数据中心的核心依然是:让算力更加普惠,促使 AI大规模普及。全方位的算力服务能力依然是云服务商竞争力的基石,算力基础设施的使用效率,会直接影响到云服务商的创新能
55、力和盈利能力。28超算算力是基于超级计算机等计算集群所提供的高性能计算能力,通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群。目前已有 11 个国家级超算中心,多个省级超算中心和高校级超算中心。AGI 时代来临,模型服务(MaaS)商业模式呈现。就在 ChatGPT 面世之前,业界并不知道大模型可以实现令科技界为之兴奋的应用水平,只是知道它可以写一点新闻、聊天、画画,这些简单的功能会在更多应用场景中带来价值。从 GPT3 到 ChatGPT 的过程,是大模型技术发展的关键节点,也是中国人工智能之路和美国人工智能之路的
56、分歧点。这两年大模型国内也有相当数量的公司参与其中,但追求的是参数量,从千亿级到万亿级很快的跃进,但是智能属性没有涌现。OpenAI 则利用人工反馈的训练机制,通过标注、对齐高质量数据,最后把这条路走通了,用千亿参数的大模型把通用智能挖掘出来了,这个事情是值得国内科技界去反思的。图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告CHAPTER3 算力服务产业链可持续发展路径 29国家“东数西算”工程下算力服务发展研究报告另外一条路是 AIGC,国内众多企业已经在 AIGC 赛道布局。这些都意味着人工智能进入通用人工智能(AGI:Artificial General Inte
57、lligence)时代,具备五个特性:涌现性(参数超过临界值,模型能力实现突变)、工程化、通用性、密集型、颠覆性。这里就不多展开阐述。未来 5 到 10 年通用大模型的发展有可能使 AI 对文字、音乐、绘画、语音、图像、视频等领域的理解力超过人类平均水平,并与互联网和智能设备深度融合,深度改变全社会的消费模式和行为。通用大模型能力将嵌入生产力和生产工具、AI 驱动数据中心发生全景式革命,行业大模型和场景化 AI 等多路径融合,AI 技术创新对商业价值的影响将变得更加广泛和不可预测。四、构建软硬协同的高性能、安全的公共算力设施算力是数字经济时代新的生产力,对推动数字产业化、产业数字化、城市治理效
58、能提升,赋能经济社会高质量发展具有重要作用。随着数字时代的发展进程逐渐深入,数字孪生、元宇宙、Web3.0、通用人工智能等新兴技术快速兴起,海量数据爆炸式增长,多元化应用场景在各领域涌现,各行各业对高性能、高安全、高性价比的算力,特别是AI 算力的需求成百上千倍增长。因此,构建高性能、普惠、安全的公共算力基础设施成为支撑产业转型升级和创新发展的刚性需求和必然选择。一是以异构计算为核心,突破通用算力架构体系性能瓶颈。传统 CPU 架构强调算力的通用性,适合处理串行计算、数据库运行等类型的工作,在海量数据和图像处理等并行计算方面存在较大的性能瓶颈。随着人工智能在各行业领域应用的不断深化,特别是当前
59、以ChatGPT为代表的AI大模型的横空出世,推动人工智能应用场景不断丰富,并对计算性能提出了更加多元化、高标准的要求。根据摩尔定律,CPU 的性能每隔 18到24个月就能增长一倍,但是人工智能训练任务所需要的算力每3.43个月就会翻倍,单核 CPU 的主频已经逼近极限,传统以 CPU 为主的通用计算架构已无法满足海量数据下多元化场景的计算需求,以 CPU+AI 芯片(如 GPU、FPGA、ASIC 等)为主体的异构架构应运而生。异构架构通过将 CPU 与多种 AI 芯片集成,融合了通用计算单元和专用计算单元的优点,使不同类型的计算单元都可以执行自己最擅长的任务,具有高性能、高效率、低功耗等显
60、著优点,可以有效解决新场景下通用算力性能不足的问题。二是以软硬协同为途径,提升异构算力的计算和调度能力。随着摩尔定律逼近极限,基于冯诺依曼体系架构的硬件算力提升日渐乏力,而软件程序效率的提升仍有较大空间,通 30过体系结构上的创新和软硬件一体化协同来满足持续增长的算力需求,是实现更大规模、更高效率并行计算和调度的有效途径。因此,以异构架构为核心的新型算力体系要求算力基础设施从以硬件为主导的计算性能提升向软硬件协同优化演进。一方面,异构加速的软硬件协同设计是面向性能、时延、功耗、可靠性、安全性等多种约束条件下的最优化问题,可以通过使用领域特定结构设计思路,对硬件、架构和代码进行协同优化,有效提升
61、负载中的并行效率,提高数据和计算吞吐量,从而提升计算的整体性能。另一方面,软硬件协同可以通过整合编译器、编程语言、软件开发库等,面向异构的底层计算架构提供编程模型和程序接口,从而实现多元异构算力的统一高效调度和管理。数字中国建设整体布局规划明确,数字中国建设按照“2522”整体框架布局,强调强化数字中国关键能力,构筑自立自强的数字技术创新体系,筑牢可信可控的数字安全屏障。近年来,随着网络安全法、数据安全法、个人信息保护法出台,将我国数据安全保护及管理要求提升至新的高度。同时,“十四五”以来,国家出台多项政策要求加快培育数据要素市场,建立高效共享的普惠型数据要素市场。构建高安全可控的数字基础设施
62、,是维护、夯实数字基础设施和数据资源体系的重要保障,是发展数字经济的重要技术支撑。随着国产处理器、国产操作系统、国产数据库的发展和成熟,在党政机构、能源、金融等关键行业领域,实现了高安全数字基础设施的“从无到有、从有到优”,高安全数字基础设施成为建设数字中国的重要力量。高安全数字基础设施包含以下关键要素:一是可信可控,具备高水平自立自强的数字创新体系,实现在云、计算、存储、网络、安全、数据、智能等关键核心技术攻关,确保所有的技术资料、知识产权、源代码,云平台中不存在恶意后门并可以不断改进升级,不受制于其他技术壁垒。二是原生安全,安全效果不能依靠单一技术或产品来解决,需要依靠“系统论”思想,进行
63、体系性建设。通过搭建云平台原生安全、可信安全、云原生安全产品、合规安全等构建可信云原生安全架构。可信云原生安全架构具备四大核心原生安全能力:可信安全、云原生安全、数据原生安全、智能安全。三是统合算力,通过构建自主可控的算力调度服务平台,逐步开展异构云资源纳管,系统优化算力基础设施布局,对通用算力、超算、智算、边缘数据算力等算力资源进行统一调配,实现数据资源高效配置,数据要素加速流通,数据价值全面释放,数据安全有效保障。四是数智融通,数据和人工智能是数实融合的关键,数智能力需要融入数字基础设施,构建云、网、智、算融合体系的数字经济基础底座。加大对大数据、人工智能、5G、区块链等数字技术的创新应用
64、,利用 AI 技术激活数据价值,加快释放行业数字化生产力,实现质量、效率和动力变革。CHAPTER3 算力服务产业链可持续发展路径 31国家“东数西算”工程下算力服务发展研究报告五、先进制冷技术演进发展在通用算力方面,工信部数据显示,截止 2021 年底,我国在用数据中心机架总规模超过 520 万标准机架,平均上架率超过 55%。在智能算力方面,根据智能计算中心创新发展指南,2022 年我国智能算力规模快速增长,达到 268 百亿亿次每秒(EFLOPS),超过通用算力规模,预计未来 5 年中国智能算力规模的年复合增长率将达 52.3%。对于算力中心而言,算力规模持续增长,随之而来的是散热压力和
65、节能挑战。目前,作为服务器关键部件的 CPU/GPU,随着性能提升功耗增加非常显著。CPU 方面,第四代英特尔至强可扩展处理器的核心数最多可达 60 个,比代号 Ice Lake(-SP)的第三代至强可扩展处理器高出 50%。相应的,公开款的 TDP 指标上限,也从 270 瓦(W)一跃而至 350 瓦。AMD EPYC 9004 系列处理器,最大功率可达 400W。GPU 方面,2022 年英伟达于 GTC 大会上发布针对数据中心的新一代 Hopper 架构的 GPU 芯片单颗功耗达到 700 瓦,挑战传统风冷系统散热的能力边界。相比于传统服务器,AI 服务器的功耗更高,随着 AI 大模型与
66、训练需求的持续增长,AI 服务器的市场规模将会继续扩大。根据 IDC 数据,2022 年全球 AI 服务器市场规模达 202 亿1,4001,2001,000800600400200031.775.0155.2268.0427.0640.7922.81,271.42019 2020 2021 2022 2023 2024 2025 2026百亿亿次浮点运算/秒(EFLOPS)中国智能算力发展情况图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告 32美元,同比增长 29.8%,占服务器市场规模的比例为 16.4%。算力基础设施高功耗、高功率密度发展成趋势,液冷等新型冷却技术
67、前景广阔。训练、使用大模型需消耗巨量算力,对使用芯片的性能和数量要求极高。为了满足高算力负载的需求,需要叠加多核处理器,或者提高单核主频,将使得处理器功耗显著增加、数据中心功率密度越来越高。近年来国家出台一系列政策文件规范数据中心的能耗管理和电能使用效率(PUE),明确要求到 2025 年,全国新建大型、超大型数据中心平均 PUE 降到 1.3 以下,国家枢纽节点降到 1.25 以下,绿色低碳等级达到 4A 级以上。随着芯片功率、ICT 设备器件性能提高和单机柜功耗的增加,发热量随之上升,传统风冷技术的散热效率已经跟不上计算效率,难以完全解决高热密度场景下的数据中心散热问题,亟需应用液冷等新型
68、冷却技术。液冷技术多适用于高功率、高密度数据中心,数据中心的液冷技术目前处于探索阶段,总体发展趋势良好。液冷的优势在于,单位体积的液体带走热量的能力通常比空气强得多,可以用较缓慢的流速冷却更高发热量的部件,而且工作温度也可以相对高一些。这就意味着液冷即使在气温较高的地区也可以更多地利用自然冷源,减少对电能的使用,具有更好的节能效果。与传统风冷技术相比,液冷技术具有更强的冷却能力,其冷却力是空气的 1000-3000 倍,热传导能力是空气的 25 倍,在同等散热水平下,可数据整理:益企研究院CHAPTER3 算力服务产业链可持续发展路径 33国家“东数西算”工程下算力服务发展研究报告节省 30%
69、-50%的冷却能耗。随着液冷技术的日益成熟,浸没式液冷技术可以使 PUE降到 1.2 以下,联合其他技术可使 PUE 趋近于 1。以“东数西算”成渝枢纽节点内,曙光承建的西部(重庆)科学城先进数据中心为例,采用立体化机柜布局,高密集约,从传统密度角度看,提升了近 10 倍;同时该数据中心采用了曙光浸没式液冷技术、余热回收、绿色建筑等多种节能技术方案,不仅解决了散热,还可以充分的释放芯片的潜能。先进数据中心核心计算设备PUE值低至1.04,为全球最低,能耗水平比行业数据中心平均值低 30%左右。数据中心内的服务器整体无风扇,并与液冷换热设备分层布置,机房内十分安静。相比传统风冷技术,液冷数据中心
70、正受到产业更多青睐。据赛迪顾问2023 中国液冷应用市场研究报告显示,国内液冷数据中心市场近三年来飞速发展,市场部署规模达到 111.6MW。而中科曙光旗下的曙光数创以 58.8%的市场份额位列 2021 年至2023 年 H1,中国液冷数据中心基础设施市场部署规模第一。34行业对液冷数据中心技术的关注,也映射到了科幻电影。如在 2023 年初上映的科幻电影流浪地球 2中,“未来航天中心计算机”就由中科曙光公司的新型液冷计算“出演”。该新型液冷计算机,将热量通过相变液体换热方式移出,使其可极大降低散热能耗。目前采用相关冷技术的多地数据中心已节电超4亿度,约减少了超1.35万吨二氧化碳排放。CH
71、APTER3 算力服务产业链可持续发展路径曙光浸没相变液冷技术运行示意图流浪地球 2剧照 35国家“东数西算”工程下算力服务发展研究报告六、算力网络优化算力布局算力的互联互通和统一调度是实现“东数西算”的一项基本条件,更是数据中心算力发展的必由之路。中国创新的提出了“算力网络”的概念,旨在通过网络将全国各个算力中心连接起来,形成一台庞大的“网络计算机”。一方面要提高算力输送效率,通过并网实现高带宽、低延迟的算力互联;另一方面,需要团结领域内各大企业,可以屏蔽异构基础设施的差异,通过统一编程框架和编译的资源管理与调度软件实现算力的互通和资源的统一调度和管理,稳步推进“东数西算”的发展与预后工作。
72、实现全社会算力资源的使用最优、效率最高。伴随着算力经济的深入发展,计算与存储技术、全光网络、算网一体化运营与管理等技术的不断创新,全国各主要算力枢纽与各数据集群建设的不断完善,以及各地区各行业数字化业务转型的深入,全国一体化算力网络将得到持续完善,并推动各区域内外部算力布局持续优化,对我国各地区、各行业的数字化转型升级起到有力的支撑。首先,算力网络的持续优化完善将构建形成多层级协同、多元化算力的一体化算力布局。从全国范围的宏观层面看,以“统筹、集约、创新、安全”为原则,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏形成8个国家算力枢纽节点,形成多个国家算力枢纽为核心与东西南北算
73、力枢纽互联互通的算力骨架。从重点区域范围的中观层面看,以“供需协同与综合能效”为牵引,结合大型城市人口稠密、经济产业发达等城市特点,通过在一线城市及其周边建设大型、超大型数据中心满足一线城市数字经济复杂多变的业务应用场景与数字化转型任务要求,形成区域中心与周边协同发展“中心城-卫星城”算力布局。从城市内部范围的微观层面看,以“应用场景和用户服务”为核心,通过建设中小型数据中心、边缘计算中心和超边缘计算中心等,提升城市算力云边端互动与协同能力,服务智慧城市、智慧产业和数字政府等场景,形成城市内部的“多中心-多边缘”融合的算力布局。从多元化算力发展的角度看,一线城市周边的算力中心布局可以是通用型数
74、据中心、超算中心和智能计算中心,城市内部的数据中心还可以包括边缘数据中心、超边缘数据中心和终端算力等。总体上看,随着算力经济的持续发展,我国将形成全国范围内的多层级协同、多元化算力的一体化算力布局。36在此背景下,国内企业也进行了一体化算力服务的相关探索。如中科曙光及其旗下曙光智算公司就推出了一体化算力服务平台(A),并以该平台为统一接口,实现了包含曙光 GridView 计算集群管理和 Sothis AI 深度学习平台等功能的曙光计算服务,依托“算力”、“算能”、“算网”三大服务板块,解决了算力在全国范围内的输出、转化、匹配、应用等难题,为超 10 万用户提供了过亿次作业提交服务。一体化算力
75、布局将有力地促进数字产业与产业数字化的发展。算力资源的合理布局将极大地促进数字产业的创新发展,助力半导体芯片产业、数据中心产业、新一代信息网络与安全产业、人工智能产业、数据要素产业和绿色低碳产业发展,形成算网融合产业生态。同时,算力资源的建设将有效赋能产业数字化转型进程,助力智能制造、自动驾驶等传统产业实现跨区域协同发展,为产业发展注入新的活力。CHAPTER3 算力服务产业链可持续发展路径 37国家“东数西算”工程下算力服务发展研究报告其次,先进的算力资源将有力促进人工智能从技术突破走向产业落地。经过机器学习领域多年的技术积累,人工智能生成内容(AIGC)技术的表现近年得到了实质性突破,基于
76、全新一代多模态大模型 GPT4 的 ChatGPT 在图文数据处理方面的能力得到大幅提升,其在知识问答、翻译、内容创作等诸多应用取得了惊人的表现。ChatGPT 的核心价值在于改变了人类的“知识表示和调用方式”,使通用人工智能的实现又迈出了坚实一步,为人工智能产业的发展提供了极大可能。AIGC 应用具有数据传输量巨大和模型规模巨大等特点,传统计算模式无法满足其发展需求。一方面,AIGC 应用需要处理和传输的数据量巨大。在 AIGC 应用中,需要对来自传感器、监控设备、社交网络、移动设备等不同来源的结构化、非结构化和半结构化(包括文本、图像、视频)数据进行采集、传输、清洗、转换、整合和标注等操作
77、,然后传输至算力网络的算力节点,由算力节点接受任务后利用模型训练生成内容,其中模型包括自回归模型、生成对抗网络、变分自动编码器、基于流的生成模型、扩散模型等大模型;以便进行深度学习和机器学习算法的应用,训练好的模型、算法和结果传输回客户端系统,由于传输的数据量通常很庞大,需要高带宽和低延迟的网络来支持。另一方面,AIGC 模型持续扩大。在 AIGC 领域应用的大模型通常由多层级的复杂结构组成,需要处理数以百万计的参数和变量,这些模型和算法通常需要大量的计算资源来进行训练和推理。GPT-4 在 120 层中总共包含了 1.8 万亿参数。为了处理海量的数据和复杂的模型,需要使用并行计算和分布式计算
78、技术,以利用多个计算机或处理器来同时处理数据。AIGC 应用通常需要大规模的计算资源来支持其复杂的计算需求,随着 AIGC 数据规模的增大和多样化,处理数据的能力需要不断提升。传统计算模式无法满足 AIGC 应用对算力的需求。在普通的计算任务和业务中,传统的计算方法如边缘计算和云计算具有一定的局限性,无法完全满足 AIGC 应用的需求。云计算和边缘计算对于一些复杂和大规模的计算任务,传统的计算方式受限于计算能力、数据处理能力和模型表达能力等。云计算和边缘计算在处理大量的 AIGC 应用数据时无法保证低延迟。为了解决数据上传和下发以及大模型的算力问题,算力网络将云边端三层算力结构组织调度成具有高
79、效和安全性能的网络,可以在区域间、区域内部的中心城市与周边城市间优化算力布局,共同完成大规模计算任务。AIGC 应用通过分布式存储和分布式计算等技术,可以将数据和计算任务分散到处于不同地理区域间的多台计算机上,从而提高数据处理和模型训练的效率。算力网络架构把网络资源层和算力资源层合并为网 38络基础设施层,以实现由网络资源、计算资源分治管理到算网统一控制和管理;由网络调度过渡到网络和计算联合调度,由网络的度量过渡到网元和算力节点的互联、度量和建模。算力网络具备强大的算力、数据处理和自动化的工具,同时具有高度可扩展、可靠和弹性的系统设计能力。算网融合化一体化发展不仅可以优化我国算力布局结构,还可
80、以很好地支撑我国人工智能大模型产业的发展。如中科曙光就依托“一体化算力服务平台”,探索如何降低 AI 大模型的训练与推理成本。该平台可让全国用户无需投入大量成本购买硬件设施,就能完成 AI 大模型的训练与推理工作,平台除能够在线提供 Tensorflow、PyTorch、PaddlePaddle 等主流 AI 框架算力支持外,还可实现在数千节点规模时仍能满足高效训练目标,进而曙光与 AI 企业形成了基于 AI 模型的联合解决方案,攻克类脑智能、基因技术等难题。目前,曙光“一体化算力服务平台”已为“紫东太初”、“悟道 2.0”、“文心一言”等多个国内大模型训练提供算力支持。再次,算网融合与算力资
81、源的优化布局将有力赋能传统制造业走向智能化、协同化。基于新一代信息网络和云计算制造协同平台提供协同化制造已成为重塑全球制造业竞争优势的关键因素。“十四五”智能制造发展规划指出,建设智能制造示范工厂。引导龙头企业建设协同平台,带动上下游企业同步实施智能制造,打造智慧供应链。鼓励各地方、行业开展多场景、多层级应用示范,培育推广智能化设计、网络协同制造、大规模定制、共享制造、智能运维服务等新模式。虽然我国制造业发展在多个领域取得了显著成绩,但与世界先进国家相比,我国的工业基础依然薄弱,尤其在应用于重要领域的核心装备产品的生产制造工艺、产品自主研发能力和产品结构方面差距较大,同时,市场对制造业产品的要
82、求也在快速变化,呈现出大型化、小批量、定制化、交付快等新特征。算力网络正具备强大的算力、数据处理和自动化的工具,同时具有高度可扩展、可靠和弹性的系统设计能力。算网融合化一体化发展不仅可以优化我国算力布局结构,还可以很好地支撑我国人工智能大模型产业的发展。CHAPTER3 算力服务产业链可持续发展路径 39国家“东数西算”工程下算力服务发展研究报告从需求看,制造业智能化、协同化发展已经成为必然趋势。制造业产品研制的过程是一种知识密集型工作,需要综合多个学科专业和领域的知识,为了实现制造装备的高效、快速、精确制造,在产品生命周期的各个阶段需要调用许多设计单位长期在工作习惯、设计流程和管理手段等方面
83、积累的资源和经验。同时,制造业终端客户和产品提供商分布于不同地区,为用户提供各类按需制造服务要多个异地企业在跨领域和跨地域的合作下完成。因此,制造企业转型需要根据客户订单快速重新调整生产方式和组织架构,以快速响应瞬息万变的市场变化与消费者个性化定制需求,实现产品全生命周期、跨地域、跨机构、跨专业的网络化协同服务,提升系统的整体协同效应,为创新产品带来活力。建设动态快速响应的制造网络协同服务平台,强调对复杂产品全生命周期信息、数据的高效管理,提升设计、工艺与制造过程以及整个供应链的协同运转效率是数字经济和数字化转型背景下,制造业协同化发展的必然选择。从供给看,先进的算力网络将有力支撑制造业智能化
84、、协同化发展。为了更好地支撑协同制造业务创新,需要构建先进的智能算力中心、云计算中心、网络等算网资源,和跨区域的云网融合机制。一是支持数据的存储与处理,制造业的设计、仿真、试验及企业的生产制造各环节中产生海量数据和知识,规范化、标准化数据管理极具挑战性,同时领域知识更新变化快,导致知识积累困难、知识创新力度不够,严重制约研制周期和技术创新。需要构建制造研制数据中心系统和云计算中心对数据进行存储、管理、分 40析应用,以及知识获取、知识更新与维护、知识主动推送、知识创新与共享,实现全生命周期数据管理,挖掘利用业务数据实现对决策支持系统的数据支撑,提高产品研制质量并缩短研制周期。二是支持产品研发。
85、制造业具有性能要求严格、设计更改频繁、产品构型众多、零件材料及形状各异和内部结构复杂等特点,其研制过程是一项多专业协同设计仿真的工作。需要沟通先进的算力网络支撑构建以任务为核心的设计仿真流程管理系统、工程师统一工作平台、知识驱动的模块化设计软件、统一的研发数据中心,形成制造业数字化过程研发体系,全面监控研发过程中资源使用、任务进度、数据状态、基础技术应用,全面提高企业的研制管理效率、资源利用效率、专业设计效率。三是支撑协同制造。制造业企业的生产方式逐步从大批量生产向多品种、小批量客户化生产的生产方式转变,要求企业对生产过程的管理和监控更加趋于准时化、柔性化和实时化。以先进的算网融合技术,优化城
86、市内部算力布局,可以有效支撑产业链上企业之间的协同生产,实现对作业计划和工厂、人员、设备等生产主体的实时跟踪,提升产业链整体信息流转效能,实现对链上企业的全方位的监控管理,达到快速响应市场和顾客的要求,从而从整体上提升产业链联动协作水平,增强各企业的执行力和产品质量。七、算力网络不同路线实践 打造高效的算力网络是实现“东数西算”中“国家枢纽节点之间进一步打通网络传输通道”、“优化东西部间互联网络和枢纽节点间直连网络”,“提升跨区域算力调度水平”的关键。近年来,我国在算力网络方面取得了长足的进步。如在 2023 年 4 月,科技部在天津组织召开国家超算互联网工作部署启动会,发起成立了国家超算互联
87、网联合体。国家超算互联网是以互联网的思维运营算力中心,并连接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,构建一体化算力网络和服务平台。从整体构架上看,算力网络的架构可分为三层,从下至上依次为基础设施、编排管理和运营服务层。并通过市场化的运营和服务体系,实现算力资源统筹调度,降低算力应用门槛。目前,国家超算互联网正式启动服务商招募工作。首期招募主要面向国内优秀的软件服务商及个人软件服务者。同时发起包含市场发展基金、免费算力资源等丰厚福利的“超赋”千万基金激励计划。CHAPTER3 算力服务产业链可持续发展路径 41国家“东数西算”工程下算力服务发展研究报告同在 2023 年,
88、中国信通院牵头成立“中国互联网协会算网云协同系统工作委员会”,旨在促进算网云产业协同发展。中国信通院提出算力互联五通五层模型以及“三位一体”实现路径,通过算力注册感知、算网参数调度、身份认证管理、统一计费度量等公共服务,构建架构互通、高速互联的标准化环境,降低算力服务商算力互联互通成本,实现“一点接入、全算贯通”。计算与通信产业链相关企业在中国科学院科技算力基础设施建设、运营实践基础上联合发起成立算力互联公司。算力互联集算力运营、资源交易、数据交换、生态服务于一体,聚集了丰富的算力资源中心、算网数据交换中心、算力互联网接入点以及算网生态应用平台,打造以算力互联全国一体化算力调度服务平台 ACL
89、ink 和全国一体化算力服务通信网络 ACNet 为核心、面向科技和产业的算力互联网。该公司正以“资管+交易”模式开展“自营+互联”算力基础设施全国布局,希望打造算力互联与算力智能的技术体系与经济体系。梳理国内算力网络的实践路径,最早可追溯到 2015 年,中国科学院计算技术研究所(计算所)提出的“信息高铁”概念。计算所将“信息高铁”定义为面向 IT3.0 时代的新型信息技术设施。2023 年,计算所打造了广域分布式的数算融合基础设施试验平台,建成连接北京、南京、盐城、郑州、重庆、苏州 6 地算力站国家超算互联网部署启动仪式现场 42的“算力高铁”综合试验场,自主研发了算力网操作系统(算力商店
90、)和原生的模型市场。平台实现了算力资源动态接入和全局统一调度,支持以“分层解耦”方式构建算力、数据、模型及应用服务,是我国首个云网边端一体化的信息基础设施综合试验平台,并参与国家“东数西算”跨区域算力调度示范。2019 年,鹏城实验室以“鹏城云脑”为初始枢纽节点、以智算中心为基础,启动了中国算力网的研发与建设。2022 年 6 月,中国算力网正式上线“智算板块”,采用算网融合技术,计划实现全国智算中心联网与入网中心的统一规划、统一调度、统一运维。众多实践虽有不同的技术路径,但怀有一颗相同的“初心”:通过解决异构算力数据中心的互联和互通问题,最后实现全国统一的分布式的异构资源的调度,提高运营效率
91、。CHAPTER3 算力服务产业链可持续发展路径 43国家“东数西算”工程下算力服务发展研究报告CHAPTER4面向 2030 年算力服务展望 44第四章面向 2030 年算力服务展望一、算力服务的综合价值展望算力服务将提高科技创新速度,成为大数据、人工智能等技术创新发展的基石,加快科技成果转换。首先,算力服务提供了一个高效且便捷的计算环境,使得科研机构、企业、高校、开发者等可以更便捷地开展各种计算密集型工作,加速了科技创新的进程。其次,算力服务为大规模数据处理和复杂算法模型训练提供了必要的计算能力,加速人工智能大模型的训练过程,从而加快技术的迭代和应用落地,为大数据、人工智能等数字技术的创新
92、与应用提供了坚实的基础。算力服务将成为算力赋能传统产业数字化转型升级的重要手段,同时激发算力产业迸发新活力。首先,传统产业在数字时代下正面临产业数字化转型升级的机遇与挑战,但传统行业通常存在 IT 人才储备不足、数据资产积累薄弱、数字化转型试错成本高的问题,提供简单易用的算力服务是算力赋能传统产业数字化转型的重要手段。其次,算力服务可以激发算力新产业。一方面,算力服务激发新的产业角色,算力服务的发展衍生了算力度量、算力调度、算力交易等多种算力管理新范式,同时出现了以上述技CHAPTER4 面向 2030 年算力服务展望图片来源:算力经济时代 数字中国万里行 2023 新型算力中心调研报告 45
93、国家“东数西算”工程下算力服务发展研究报告术研发为核心业务的新型算力服务商;另一方面,算力服务推动信息技术产业构成升级,为适应算力服务发展,传统芯片、操作系统、网络、云计算等企业纷纷延伸业务范围,发展出软硬一体、算力网络等新理念,重塑和整合信息技术产业结构,刺激数字经济迸发全新活力。如曙光的“一体化算力服务平台”,其服务范围不仅覆盖了人工智能、气象、生物、材料、智能制造等众多领域,还为满足用户融合创新需求,实现了不同领域应用在同平台的同步编译、运行和处理,进而极大提升创新速度。算力服务通过赋能千行百业可以产生直接的经济价值,也通过扩大算力核心产业规模产生巨大经济效益。一方面,通过将算力服务逐步
94、渗透至医疗、交通、教育、政务、金融、工业等各产业、助力细分行业企业数字化转型,形成强大的生态服务圈和数字经济效应增长。算力服务直接支持第一二产业数字化转型,其带来的资本与技术投入为制造、交通、零售等多个传统行业带来产值增长,这些传统行业发展程度越高,算力服务对经济的促进程度越显著。另一方面,算力服务有助于扩大算力核心产业规模,产生巨大经济效益。据工业和信息化部数据显示,截至 2022 年,算力核心产业规模已经达到 1.8万亿元。算力服务的普惠化、泛在化、标准化特性,使得算力将成为社会基础公共资源和未来智能社会的技术底座。首先是算力服务通过一体化感知调度技术,屏蔽异构算力资源的底层差异,实现其统
95、一调度、输出,降低了用户异构算力资源使用的门槛,拓展算力服务用户群体与规模,加深算力服务普惠化。其次是云网边端融合程度的加深,能够将泛在算力资源互联,形成覆盖范围更为广泛的资源池,让用户能够随时随地享受算力服务通过赋能千行百业可以产生直接的经济价值,也通过扩大算力核心产业规模产生巨大经济效益。算力服务的普惠化、泛在化、标准化特性,使得算力将成为社会基础公共资源,成为未来智能社会的技术底座。46到算力资源提供的服务,扩大算力服务覆盖范围,实现算力服务泛在化。最后是统一资源接入方式、接入架构等,能够为异构算力资源建立输出标准,助力算力服务的标准化。算力服务的普惠化、泛在化和标准化特性使其将成为类似
96、水电、广泛应用于社会各领域的公共基础资源,为社会的数字化、智能化发展提供了坚实的技术基础。二、算力服务促进算网深度融合带来算力服务变局算力服务作为新时代下数字经济的重点产业,将在未来数年为各领域创新发展注入新动力。资源上,计算架构持续升级,异构资源实现协同联动。当前,全球数据量爆发性增长,人工智能、区块链、数据中心和边缘计算等场景对算力的需求越来越高。为了满足多元化的算力需求和应用场景,未来的基础计算架构将引入更多种类的基础资源来加速计算。除了传统的 CPU 计算单元外,还包括 GPU、DPU、AI 加速芯片等。目前,芯片提供商主要依靠自身的硬件条件来构建计算架构,彼此之间差异较大,导致跨架构
97、应用开发和迁移面临困难。未来将通过开源框架和接口等方式建立一个统一、规范且可以屏蔽底层软硬差异的计算架构平台,从而支持不同类型资源之间的联合协作,从底层优化算力服务性能。服务上,算力服务水平持续提升,供给模式不断优化。随着各行各业数字化转型进度加快,企业对算力供给的要求越来越高。算力供给作为算力服务中面向用户中至关重要的一环,未来应当从以下几个方面加强发展:一是进行整体最优的资源配置优化,解决算力供给与需求之间的结构性矛盾,保障算力的高效产出和使用;二是强化资源和需求的映射关系,算力服务可依据任务类型,智能化选择计算资源进行调度,持续提全球数据量爆发性增长,人工智能、区块链、数据中心和边缘计算
98、等场景对算力的需求越来越高。为了满足多元化的算力需求和应用场景,未来的基础计算架构将引入更多种类的基础资源来加速计算。CHAPTER4 面向 2030 年算力服务展望 47国家“东数西算”工程下算力服务发展研究报告高任务执行效率,优化资源使用;三是需加速完善算力交易体系,并融入多种安全技术如隐私计算、区块链等,保障算力输出的安全性。算网深度融合态势之下的新型服务模式,将全面赋能各行各业,充分满足各类场景需求,给企业带来创新发展的源动力。算力和网络的发展日益呈现一体共生之势,从最初网络仅支持连接算力逐渐演进到感知算力、承载算力、调度算力,实现网在算中、算网一体。未来,算力度量、算力原生、算力路由
99、、算力调度等关键技术的发展成熟,将推动算网资源日益走向深度融合。当前,算网感知接入、协同编排调度以及控制转发等相关技术快速发展,目前已具备提供跨架构、跨服务商、跨地域服务的前置条件。一是算力度量技术在资源感知接入阶段筑牢跨架构服务基础。算力度量技术面向不同架构的计算资源、不同连接方式的网络资源、不同介质的存储资源分别进行量化,完成量纲统一,为算力跨域调度屏蔽底层资源架构差异,根据具体任务需求按量匹配资源,实现算网资源的充分利用。二是多要素融合在编排调度阶段突破跨服务商资源壁垒。算力服务内涵下的编排调度与 48传统编排调度的差异主要在于,前者是面向计算任务进行,更加关注用户需求;而后者是聚焦计算
100、资源。算力资源之间存在服务商属性差异,传统的编排调度以服务商为前提进行资源匹配,即在相对有限的资源下形成最优的编排方案;算力服务内涵下的编排调度能够以用户计算任务性能需求、资源规模需求及全域资源状态等多要素作为编排要素,将跨域的算、网等原子能力进行按需灵活组合,突破跨服务商编排调度的限制。三是智能选路在控制转发阶段冲破跨地域调度阻碍。传统调度场景中,网络主要起到保障传输的辅助作用。随着“算力路由”、“算网一体”等概念的提出与相关技术的成熟,通过在网络路由体系中增加算力信息,来实现网络和计算资源的一体化感知,进而实现网络与多重异构算力资源叠加的全局跨域智能调度。网络智能选路完成调度过程中最优算力
101、节点及传输路径的选择,有效优化调度传输时延,系统化提升算力服务质量。在产业实践上,算网云一体化技术持续落地,算网大脑是典型代表。当前产业内已诞生如算网大脑、算网调度引擎、算网一体机等聚焦算网云一体化技术的实践产品,并在音视频、AR/VR、自动驾驶、智慧园区等多种场景中得到应用,其中,算网大脑是算网云一体化技术落地的典型代表。例如,以三大运营商为代表,各自建设的算网大脑通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署,以支撑其东视西渲、东数西训等多场景运算需求。应用上,算力服务加速产业渗透,应用场景充分拓展。随着算力服务化进程
102、的加快,算力市场逐步扩展到跨地域、跨运营主体的算力交易。高效的算力交易能力将有效盘活存量算力,降低单位算力使用成本,促进算力服务深入政府、金融、教育、制造、工业、农业等行业。未来,算力服务将在各行业得到更广泛的应用。在医疗行业,算力服务可以用于加速基因测序、药物研发等重要任务,进一步推动医疗技术的创新。在交通行业,算力服务可以用于优化交通流量,提高交通效率,实现智能交通管理,减少拥堵和事故的发生。此外,算力服务还可以应用于城市规划、环境保护、金融风控等领域,帮助决策者更好地分析和处理复杂的问题,提供精准的决策支持。随着算力服务应用场景的拓展,预计相关技术和服务的市场规模也将不断扩大,为经济增长
103、和社会进步带来更多机遇。CHAPTER4 面向 2030 年算力服务展望 49国家“东数西算”工程下算力服务发展研究报告产业上,算力服务市场日趋繁荣,产业生态愈发成熟。当前,电信运营商、IT 基础设施企业、互联网头部企业以及部分中小型服务商等众多企业已纷纷入局算力服务市场,算力服务产业生态雏形基本形成,市场建设日趋繁荣。在下一发展阶段中,算力服务产业上下游各方需加强相互协作,共同攻克技术实践难题,持续创新算力应用新模式。依靠市场各方的通力合作与协同发展,我国算力生态产业链将逐渐成熟。通过打造绿色可持续发展的算力服务商业模式,为数字经济时代掀开崭新篇章。未来,算力将加速普及,类似于电力插座变成算
104、力插座。用户使用算力不需要带一台电脑,可以通过一个标准的计量方式来使用算力。未来还可能会出现类似于发电厂的算力工厂,尤其在西部地区会出现,比如在煤矿、水电站的附近已经开始建设算力工厂,电力极其便宜,成本特别低。工业时代有公路、电网,算力时代也有算力网络。随着算力服务的发展,未来在算网时代有三类不同角色:一是网络通信商,通过算网融合参与进来;另外超算的供应商、云计算供应商,通过超算互联网也会参与提供算力服务;还有国家电网通过建设发电厂,参与提供算力服务。三类角色从不同的技术途径抢占算力服务市场。50版权声明国家东数西算工程下算力服务发展研究报告版权属于中国智能计算产业联盟和中研益企(北京)信息技术研究院有限公司,并受法律保护;转载、摘编或利用其他方式使用本考察报告文字、图片或者观点的,应注明“来源:中国智能计算产业联盟和益企研究院”;违反上述声明者,本公司保留追究其相关法律责任的权利。