1、 人工智能带来的颠覆:数据中心设计的挑战及相关指南 能源管理研究中心 第 110 号白皮书 版本 1.1 作者:Victor Avelar Patrick Donovan Paul Lin Wendy Torell Maria A.Torres Arango 为本白皮书评分 摘要 从大型训练集群到小型边缘推理服务器,人工智能(AI)在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势,并介绍了由此带来的数
2、据中心挑战,并针对每个物理基础设施类别(包括供配电、制冷、机柜和软件管理)提供了应对此类挑战的指南。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 2 人工智能带来的颠覆:数据中心设计的挑战及相关指南 近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如 ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心
3、以支持这一需求带来了新的挑战。人工智能增长预测 我们估计人工智能目前的电力需求为 4.3 GW,并预测到 2028 年它将以 26%-36%的年复合增长率(CAGR)进行增长,最终达到 13.5 GW 至 20 GW。这一增长速度是数据中心总电力需求年复合增长率(11%)的两到三倍,详见表表 1 1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。本白皮书介绍了人工智能的重要属性和趋势,这些属性和趋势对数据中心不同物理基础设施类别带
4、来挑战,包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后,我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最虽然下一代物理基础设施系统最终可能利用更多的人工智能技术,但本文终可能利用更多的人工智能技术,但本文专注于如何利用专注于如何利用当前当前可获得可获得的的系统系统来支持来支持人工人工智能负载智能负载。1 Federico Cabitza 等人,可靠性、可用性、可维护性和安全性(rams)、猎犬和白盒:研究医疗诊断中的人机协作协议,人工智能在医学中的应用,2023 年,第 138 卷
5、。2 Jongsuk Lee 等人,汽车行业智能工厂的关键赋能技术:现状与 应用,国际精密工程与制造杂志,2023年,第 1 卷。3 Christian Birchler 等人,自动驾驶汽车软件中基于仿真的经济性测试选择,计算机编程科学,2023 年,第226 卷。4 定义参见“人工智能属性与趋势”部分。5 这些指南也适用于其他高密度的工作负载,如高性能计算(HPC)。与 HPC 应用的主要区别在于,HPC 往往是会一次安装到位,可能采用定制的 IT、供配电、制冷和/或机柜解决方案。相较之下,人工智能应用存在不断扩展的需求,需要在标准设备(IT 设备和辅助基础设施)加以扩展。施耐德电气的估算
6、2023 2028 数据中心总负载 54 GW 90 GW AI 工作负载 4.3 GW 13.5-20 GW AI 工作占总负载的百分比 8%15-20%训练与推理 AI 工作负载对比 20%训练,80%推理 15%训练,85%推理 集中与边缘 AI 工作负载对比 95%集中,5%边缘 50%集中,50%边缘 简介 表 1 数据中心人工智能负载概览。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 3 人工智能带来的颠覆:数据中心设计的挑战及相关指南 人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因:人工智能工作负载 GPU 的热设计功耗(TDP)网络延迟 人工