《中国电信:2024亚太区智算中心液冷应用现状与技术演进白皮书(98页).pdf》由会员分享,可在线阅读,更多相关《中国电信:2024亚太区智算中心液冷应用现状与技术演进白皮书(98页).pdf(98页珍藏版)》请在三个皮匠报告上搜索。
1、致致谢谢在此特别感谢中国电信国际公司的管理层,特别鸣谢吴晓雷、陈凯、程雍对于本次白皮书撰写的大力支持。感谢在亚太区智算中心液冷应用现状与技术演进白皮书白皮书撰写过程中,通过深谈会、特约访谈等形式分享专业观点和经验的行业专家们(按照拼音顺序,排名不分先后):曹曹维维兵兵、柴柴学学、陈陈刚刚、陈陈淼淼、陈陈天天鹏鹏、丁丁海海峰峰、杜杜华华锐锐、段段振振、冯冯立立波波、符符晓晓、葛葛鹰鹰、黄黄维维华华、井井汤汤博博、鞠鞠昌昌斌斌、Kozen、李李剑剑、李李典典林林、李李辉辉、李李志志强强、李李巍巍、刘刘卫卫民民、刘刘昕昕、陆陆干干、陆陆景景莹莹、雒雒志志明明、王王艺艺欧欧、王王海海峰峰、乔乔兴兴波波
2、、乔乔峤峤、任任政政、任任华华华华、孙孙地地、唐唐虎虎、唐唐康康、吴吴道道雄雄、吴吴建建雨雨、Tuan Giang、张张冰冰、张张炳炳华华、张张广广宏宏、张张鹏鹏、张张齐齐鑫鑫、张张珊珊珊珊、朱朱亮亮、张张义义、周周晓晓伟伟等等。感谢您们的辛苦付出和努力,白皮书的每一个知识点的落实离不开你们的付出。希望亚太区智算中心液冷应用现状与技术演进白皮书不仅可以为液冷技术的发展提供坚实的理论基础,还可以为推动亚太区智算中心液冷技术的创新与发展,为智算中心的演进贡献一份力量!亚太区智算中心液冷应用现状与技术演进白皮书编委会2024 年 12 月1 12 2序序言言在 2024 年最后一个月,我们可以来简单
3、回顾一下今年对数据中心行业的意义。如果说 2023 年从 ChatGPT 发布开始成为 AI 元年,那么我们就有足够的信心称 2024 年为液冷元年,当然是特指数据中心行业。但 2024 年的年初和年尾,数据中心行业对液冷的应用却经历了一个从怀疑观望,到理解接受,最终坚定拥抱的态度转变过程。这个过程具有戏剧化的一点主要是,在仅仅一年之内就完成了这个行业对一个核心技术的从质疑到拥抱的全过程,这在数据中心这么一个一直以“保守”著称的行业而言是从未发生过的。从 2024 年 5 月至 11 月,CTG 和深知社分别在雅加达、上海、香港、新加坡、吉隆坡、胡志明、北京等城市举办了多场液冷应用相关的深谈会
4、(Deep KnowledgeSymposium)和数据中心访谈,通过深谈会和实地访谈产生了大量与液冷相关的知识素材,并通过 CTG 专家团队和深知社研究员团队精心梳理和编写,最终形成了这本亚太地区智算中心液冷应用现状与技术演进白皮书基于以上背景和诉求,CTG 联合深知社,共同发起这本亚太地区智算中心液冷技术应用现状与技术演进白皮书,力求通过深度的调研和实地的考察,准确还原当下亚太地区不同国情、不同模式、不同阶段的智算中心液冷应用情况。并通过总结、归纳、创新,基于“两弹一优”总体技术框架,对液冷应用进行场作为全球通信企业的领导者之一,中国电信很早就开始关注智算技术与市场的发展,并致力于与 AI
5、 相关基础设施的研究与创新。2023 年 12 月,中国电信集团就根据国内智算中心的发展现状与预期,首先提出了以“两弹一优”为核心方法论的新一代 AI 智算基础设施建设指南,从“能源弹性、制冷弹性、气流优化”三个维度对智算基础设施的核心管理目标进行归纳和总结,有效的对全产业生态进行了科学高效的指导。2024 年初,中国电信国际有限公司(以下简称 CTG)开始关注以亚太地区为代表的国际智算基础设施发展情况,特别是液冷技术在AIDC 的应用情况和趋势。针对亚太地区国家众多的情况,在国情不同、芯片发展速度快、产业信息不透明等特殊情况下,CTG 希望通过一种国际化、动态化和标准化的研究形式,快速对亚太
6、地区智算中心液冷应用进行调研,并能够基于不同场景提出具体的液冷部署方法,为迷雾中的亚太地区智算基础设施行业点亮一盏明灯。景化对比,对智算中心的发展趋势做出有效的判断。这本白皮书以纯粹的工程师视角、宽广的国际化视野、深入的调查访谈作为主要的差异点,希望能够成为亚太地区数据中心从业者深度了解液冷的价值参考。本次白皮书的访谈和编制过程中,CTG 和深知社得到了 ASHRAE 亚太地区各3 3个国家分会组织的鼎力支持。不仅仅是最终的这本白皮书本身,整个白皮书调研、访谈、编写、翻译的过程均在国际化团队的背景下进行,有效促进了中国与亚太地区数据中心工程师的沟通和交流。最后,感谢深知社的研究员和志愿者团队对
7、此次白皮书辛苦的付出。中国电信国际有限公司2024 年 12 月 10欢迎各位读者在阅读完本白皮书后也提出您的宝贵想法和建议。从亚太乃至全球范围,CTG 将继续认真听取来自产业一线的声音,以期为更为广阔的国际智算产业发展提供优质的服务水平。日4 4目目录录第第一一章章、智智算算产产业业发发展展与与液液冷冷技技术术应应用用的的机机遇遇与与挑挑战战.11.1 GPU 芯片快速发展带来的能耗与散热挑战.11.2 规模部署给机柜散热带来新的挑战.21.3 智算中心用电规模及能效的挑战.31.4 智算中心水资源利用率 WUE 的挑战.51.5 液冷技术应用的机遇与挑战.5第第二二章章、亚亚太太地地区区智
8、智算算中中心心的的发发展展.82.1 亚太地区数据中心产业现状及重点地区分析.82.2 亚太地区智算中心发展遇到的气候挑战.112.3 亚太地区智算中心液冷应用现状与发展趋势.14第第三三章章、液液冷冷主主流流技技术术路路线线及及架架构构分分析析.193.1 液冷通用架构.193.2 热捕获.193.3 热交换.263.4 冷源.283.5 液冷架构分类.34第第四四章章、风风液液混混合合制制冷冷架架构构的的特特点点分分析析.374.1 风液融合是智算中心液冷应用的必由之路.374.2 常见的风液融合架构.374.3 不同风液融合架构下 WUE、PUE、TCO 对比分析.444.4 架构选择建
9、议.45第第五五章章、典典型型智智算算中中心心液液冷冷应应用用场场景景的的选选择择分分析析.485.1 大型智算中心的液冷架构.485.2 中小型智算中心的液冷架构.51第第六六章章、液液冷冷系系统统的的预预制制化化.555 56.1 数据中心产品预制化发展的趋势与价值.556.2 冷源预制化方案.556.3 一体化液冷机柜及液冷微模块.586.4 冷板式液冷集装箱.60第第七七章章、传传统统风风冷冷数数据据中中心心的的液液冷冷改改造造.637.1 冷冻水系统的液冷改造.637.2 直膨式空调系统.65第第八八章章、典典型型智智算算中中心心液液冷冷系系统统运运行行挑挑战战.688.1 冷板系统
10、可靠性验证.688.2 冷板液冷服务器适配性验证.698.3 冷板液冷系统运维界面划分.708.4 冷板液冷系统的运行与维护.70第第九九章章、智智算算中中心心新新技技术术展展望望.739.1 数据中心制冷技术的演进分析.739.2 未来热门的液冷技术应用前瞻.74第第十十章章、总总结结.85附附:名名词词解解释释.876 6第第一一章章、智智算算产产业业发发展展与与液液冷冷技技术术应应用用的的机机遇遇与与挑挑战战1 1.1 1 G GP PU U 芯芯片片快快速速发发展展带带来来的的能能耗耗与与散散热热挑挑战战随着 CPU、GPU、NPU、TPU(详见名词解释)等芯片的发展,基于大模型的人工
11、智能产业得以快速迭代。以英伟达(NVIDIA)(详见名词解释)为例,自从 2016 年推出 Pascal 系列 GPU 之后,基本保持了两年更新一代架构的 GPU 芯片智能算力的快速提升。随之而来的是在做人工智能大模型训练和微调时,模型进化所需要的能源在不断减小。英伟达创始人黄仁勋在 2024 年 GTC 大会上公布的数据(如图 1-1),从 P100 芯片到目前最先进的 B100 芯片,在训练 GPT-MoE-1.8T这样的模型时,每 token 所消耗的能源下降了 45,000 倍。图 1-1 B100 GPU 较 P100 处理 Token 的能耗减少了 45000 倍按照这个数据我们来
12、推演一下,训练一个 GPT4-MOE-1.8T,以 10 天为训练周期所需要的能源总数见表 1-1。可见,芯片算力的演讲是算力普惠的必由之路,只有足够便宜的算力成本,才能推动智算行业蓬勃发展,赋能千行百业。表 1-1 P100 到 B100 各项指标参数(以 GPT4-MOE-1.8T 10 天基准测试为参考)1 1但芯片的快速发展,在应用上也遇到了基础设施方面的瓶颈与挑战。随着芯片算力的快速发展,芯片的 TDP(Thermal Design Power)(见名词解释)散热功率的快速攀升。从英伟达 V100 到 GB200 的芯片散热功率的变化值,以及未来 Rubin 系列的功耗预测来看(见图
13、 1-2),芯片散热功率很快达到 1,200W 以上,甚至更高。图 1-2 芯片算力与 TDP 提升趋势的对照按照英伟达最新的计划,采用最新芯片架构的 GB200 算力模组,模组的散热功率达到 5400W(两块 GB200),如此高的芯片功率密度,给 GPU 服务器的供电和散热等基础设施提出了颠覆式的挑战。因此在 Blackwell 系列开始大规模部署开始,从芯片到服务器再到数据中心的散热技术需要快速迭代,以适配 AI芯片大规模部署带来的热的挑战。1 1.2 2 规规模模部部署署给给机机柜柜散散热热带带来来新新的的挑挑战战除芯片的散热功率快速攀升以外,智算大规模部署时网络架构、网络带宽及网络延
14、时的水平直接影响集群的有效算力,也间接影响了机柜热密度。GPU 的强大的并行计算能力,大大提升了运算性能。随着运算数据量的不断攀升,GPU 间需要大量的交换数据。因此,GPU 通信性能成为了非常重要的指标。在 AI 集群中进行分布式训练时,通信是必要环节,同时也是相比于单机训练而言多出来的系统开销。通信与计算的时间比例往往决定了分布式机器学习系统加速比的上限。因此,分布式机器学习的关键是设计通信机制,从而降低通信与计算的时间比例,更加高效地训练出高精度模型。2 2AI 大模型的训练是以 GPU 的大规模集群为基础来实现的。在模型训练的过程中 GPU 之间需要大量的数据交互,因此带来了大量节点间
15、通信消耗。而由 GPU集群构成的算力的大小也不是简单的用 GPU 单卡算力乘以卡数量就能获得。集群的有效算力与组网规模、网络性能和通信的可靠性正相关。一般以以下公式来评估:集群有效算力 GPU 单卡算力*总卡数*线性加速比*有效运行时间总卡数:网络设备容量决定 GPU 集群组网规模。智算采用无收敛网络架构,两层网络架构下,GPU 最大拓展数量=P2/4(P 为交换机端口数)。线性加速比:网络通信时延决定集群算力线性加速比。在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间,导致加速比150MW。如果我们以一个地区 PUE=1.3 计算,假设采用冷冻水系统,系统的 WUE=2m/
16、MWh,一年的耗水量就达到 1,708,200m,相当于 11 万户家庭的用水量,对水资源的消耗相当惊人。因此在智算发展的同时用技术创新做好水资源的节约也是刻不容缓。优化冷却塔的耗水量:冷却塔在降低 WUE 方面具有巨大的潜力,因为冷却塔占数据中心用水量的 90%以上;改用更节水的冷塔技术、通过循环利用冷却塔中的排污来减少用水量,并通过应用电解等技术来清洁冷却水,都能达到节水的目标以亚太地区典型市场新加坡为例,2021 年,新加坡用水量较大的数据中心(即上一年净用水量至少为 60,000 m)的 WUE 中位值为 2.2m3/MWh。据此数据,新加坡公共事业局(PUB)提出,帮助新建和现有数据
17、中心降低 WUE 到 2.0m3/MWh。未来十年,通过如下一些技术革命降到更低的水平。采用更节水的制冷技术:包括风冷型空气制冷和液冷等技术的应用,也可有效减少数据中心用水量。相关技术的用水水平及方案组合,会在本白皮书后续章节详细阐述。1 1.5 5 液液冷冷技技术术应应用用的的机机遇遇与与挑挑战战如上述章节分析可知,以 GPU 算力为核心的智算中心,会成为未来 10 年数据中心增长的主要推动力。而由于技术的需要,高性能的 GPU 芯片会带来更高散热功耗、更短距离高带宽的组网技术、以及不断提升的数据中心功率密度。同时规模化的应用带来大量的电力和水资源的消耗,需要通过更先进的技术提供更低的 PU
18、E 和 WUE。按美国暖通制冷空调行业协会 ASHRAE 的推荐,当芯片的 TDP大于 300W,机柜功率密度大于 40kW 以上时推荐使用液冷制冷技术。同时液冷的应用也可以大幅度较低 PUE 和 WUE。因此智算的快速发展给液冷技术在数据中心的应用提供了前所未有的机会。液冷技术前景虽然广阔,但实现的过程仍然充满挑战。在数据中心发展的60 多年、云数据中心发展的 20 多年历史来看,空气冷却型制冷(业内也称风冷)5 5一直占据绝对的主导地位,液冷技术仅用于科研为主要目标的超算场合。无论是浸没式液冷还是冷板式液冷,在 Hyperscale 和 Colocation 规模下的大范围商用还未曾经历。
19、智算中心的制冷技术能否顺利完成从风冷向液冷的转型,充满不确定性。其中的挑战来自于各项液冷技术的成熟度、芯片兼容性、基础设施兼容性、运维的难度、故障处理的难度以及产业链的成熟。在技术融合与切换的过程中还存在液冷设备与以存在的传统风冷机房的兼容问题、改造问题,风液共存的过渡都需系统性规划。本白皮书会就液冷技术应用的上述挑战一一进行分析并尝试给出解决方案。6 6第第二二章章、亚亚太太地地区区智智算算中中心心的的发发展展2 2.1 1 亚亚太太地地区区数数据据中中心心产产业业现现状状及及重重点点地地区区分分析析根据咨询机构 CUSHMAN&WAKEFIELD 的市场调研报告Asia Pacific D
20、ataCentre Update 2024-H1披露:2024 年上半年,亚太地区数据中心市场的运营容量已接近 12GW,新增供应量约 1.3GW,创下近年来的最大增幅。同时,整个地区在建的开发项目总量为 4.2GW,规划阶段的项目总量为 12.0GW,自 2023 年下半年末以来增加了 2.8GW。在亚太地区的 14 个市场中,主要的成熟市场是:中国大陆(4.2GW)、日本(1.4GW)、印度(1.4GW)、澳大利亚(1.2GW)、新加坡(0.98GW);增长最快的是马来西亚(2.1GW)、中国香港(0.58GW)等市场。下面我们分别从成熟市场和新兴市场挑选几个典型来详细分析。日日本本环环东
21、东京京经经济济圈圈区区域域2023 年,环东京经济圈的数据中心运营容量超过 1GW,并在 2024 年上半年保持稳定增长。自 2023 年第二季度以来,整体的运营容量增加了 14%。截止到2023 年底,该市场还额外吸收了 44MW 的 Hyper 和 Colocation 的容量,平均的数据中心运营容量达到 9MW,并计划持续增容,达到平均 40MW 的规模。由于电力的短缺和基础建设成熟从业劳动力的短缺,目前该地区很多数据中心的建设有所延误。例如小田园数据中心的开发,在已确保了 2025 年可以获得电力供应的前提下,宣称服务上线时间延迟到 2027-28 年。供电的挑战还反映在该市的电力建设
22、进度上,虽然目前电力供应产能在稳步提升,电力缺口从 340MW 缩减到 236MW,但与需求比仍然存在较大差距。劳动力短缺方面,预计会在 2025 年大阪世博会前有所改善。基于此情况,越来越多的运营商开始关注门槛较低的东京中央商务区以外的周边地区(见图 2-1)。例如印西和相模原地区,土地成本明显更低,电力供应不受限制,需求占东京都未来数据中心供应容量的 60%以上。吉宝公司与三井不动产签署了一份谅解备忘录,以探索数据中心日本和东南亚的发展和投资机会。此外,吉宝数据中心基金 II(KDCF II)还与三井不动产签订了远期购买框架协议,位于东京西部(相模原集群的一部分)的 300,000 平方英
23、尺(27,870 平方米)永久产权专用数据中心,该数据中心将于 2027 年竣工,成为吉宝在日本的首个数据中心项目。8 8图 2-1 环东京经济圈数据中心分布新新加加坡坡地地区区新加坡地区目前是亚太地区数据中心投资的热土。截止到到 2024 年,新加坡总 IT 容量为 1347MW,其中已经投运的有 965MW 占比 71.64%;在建的有101MW,占比 7%;规划中的有 281MW,占比 20.87%。其中托管类业务占比 55.23%,自用业务占比 44.77%,目前的空置率仅为 8MW。虽然新加坡是目前亚太地区数据中心产品的核心,但由于数据中心基础设施特别是以AI为主要驱动的智算中心基础
24、设施的建设和运行需要消耗大量的土地、电力和水,而新加坡本地这些资源都相对紧张。因此为迎接智算时代的数据中心高爆发需求,新加坡政府更多的推动与马来西亚的合作,将数据中心的建设放在马来西亚的柔佛和巴淡岛,据悉,未来新加坡 60%的新增数据中心都会投资到这两个地区。马来西亚及印马来西亚及印度尼度尼西亚西亚随着 2019 年新加坡暂停建设本土数据中心以后,最具地理优势的马来西亚成为了亚太地区最热门的数据中心投资区域。据第一数据:First Big Data发布的统计,目前马来西亚数据中心有大吉隆坡和柔佛两大集群。详细如下:集群一:大吉隆坡地区。集群一:大吉隆坡地区。大吉隆坡地区是马来西亚最早发展的数据
25、中心集群之一。CSF Group、Basis Bay 和 VADS 等公司是大吉隆坡地区市场的先行者。第一数据调研发现(见图 2-2),从 2010 年开始,大多数国际运营商通过收购进入吉隆坡市场。例如,2018 年,秦淮数据旗下的 Bridge Data Centers 从 CSF 集团手中收购了 CX2 数据中心。根据公布的数据显示,大吉隆坡地区运营中及在建的数据中心容量达到 211MW。微软于 2021 年 4 月宣布在赛城自建数据中心,其市场份额排名第一。其余份额领先的公司包括 NTT、AIMS、Bridge Data Centers 和 VADS。9 9图 2-2 大吉隆坡地区数据中
26、心建设情况统计集群二:柔佛和巴淡岛。集群二:柔佛和巴淡岛。根据 STRCTURE RESEARCH 在 2024 年 4 月的报告DCI REPORT SERIES MARTET:JOHOR&BATAM披露的数据(见图 2-3):柔佛和巴淡岛地区 2024 年计划建设的数据中心数量达到 82 个,总容量达到 2,153MW。图 2-3 柔佛及巴淡岛地区 2024 年数据中心建设规划及分布10102 2.2 2 亚亚太太地地区区智智算算中中心心发发展展遇遇到到的的气气候候挑挑战战亚太地区面积广阔,横跨多个气候带和海洋系统,因此气候特征呈现出多样性和复杂性:东南亚为典型的热带雨林气候和热带季风气候
27、,这些地区全年高温多雨,降水丰富;中国南部、日本南部以及澳大利亚的部分地区,属于亚热带季风气候或亚热带湿润气候,这些地区夏季高温多雨,冬季温和少雨;中国东部、日本大部分地区以及朝鲜半岛等,属于温带季风气候,夏季炎热多雨,冬季寒冷干燥。主主要要地地区区气气候候特特征征及及散散热热挑挑战战东南亚地区的数据中心众多且发展潜力巨大,本章节以新加坡、马来西亚、印尼为例,介绍它们的气候特征及散热挑战。新新加加坡坡新加坡位于北纬 118,东经 10351,马来西亚半岛的南端。新加坡地处热带,长年受赤道低压带控制,为赤道多雨气候,年温差和日温差小,年平均温度在 23-33之间,湿度介于 65%到 90%之间。
28、12 月是一年中最冷的月份,平均气温 24左右。6 月是一年中最热的月份,平均气温 29左右。图 2-4 新加坡全年温湿度根据 ASHRAE 的气象数据(见图 2-4),新加坡近 10 年的极端高温为 36.1,1111极端低温为 21.7,极端湿球 30.3。马马来来西西亚亚根据 OMDIA 的研究报告,马来西亚数据中心最多的三个地区为:吉隆坡、赛城、新山。吉隆坡距赛城 30 多公里,距新山 300 多公里,但新山紧挨新加坡。因此选择吉隆坡的气候特征进行分析。吉隆坡位于北纬 308,东经 10142,马来西亚半岛的西海岸。吉隆坡为热带雨林气候,四季如夏,日照充足且降雨丰沛。年温差和日温差小,
29、年平均温度在 23-34之间,湿度介于 70%到 95%之间。1 月是一年中最冷的月份,平均气温 27左右。5 月是一年中最热的月份,平均气温 29左右。图 2-5 吉隆坡全年温湿度根据 ASHRAE 的气象数据(见图 2-5),吉隆坡近 10 年的极端高温为 36.9,极端低温为 21.3,极端湿球 31.3。印印度度尼尼西西亚亚根据 OMEDIA 的研究报告,印尼数据中心最多的地区为:雅加达、泗水、万隆、巴淡岛、棉兰。这五座城市虽然比较分散,但气候特征非常接近。因此以雅加达为例分析气候特征。雅加达位于南纬 609,东经 10649,爪哇岛的西北海岸。雅加达为1212热带雨林气候,全年高温多
30、雨,季节变化不明显。年温差和日温差小,年平均温度在 24-32之间,湿度介于 60%到 80%之间。旱季(5 月至 10 月)气温相对较高在 29-32之间,雨季(11 月至次年 4 月)气温相对较低在 28左右。图 2-6 雅加达全年温湿度根据 ASHRAE 的气象数据(见图 2-6),吉隆坡近 10 年的极端高温为 37.7,极端低温为 19.2,极端湿球 29.3。散散热热挑挑战战从上述的分析可以看出,东南亚几个核心城市的气候特征非常相似,主要表现为:终年高温高湿,年温差和日温差小。从数据中心散热的角度分析,东南亚的气候条件并不优越。面临的挑战是湿热的环境使得制冷部分的节能难度很大,主要
31、依靠机械制冷,可利用自然冷源的时间非常有限,最终导致 PUE 偏高。综上,东南亚的数据中心的散热可以从以下四个方面考虑:1、提高机房温度设定点,可以有效降低能耗。2、充分利用水资源,采用高效水冷冷机,并配合水侧自然冷。3、采用先进的节能技术,例如液冷、余热回收等。1313在非智算时代,液冷更多的部署在超算中心中,且以单相浸没方式为主流。而即将大规划商用化部署的面向 AI 业务的智算中心更多的会采用冷板式液冷的方式。当前全球规模化部署冷板式液冷的数据中心并不多,我们以特斯拉xAIColossus 数据中心为例,来了解智算中心液冷规模化部署的现状。特斯拉 xAIColossus 数据中心目前部署了
32、 10 万个 NVIDIA H00 GPU。服务器为 4U 高度,包含8 个 GPU,机柜可以摆放 8 台服务器,因此整机柜含有 64 个 GPU。再由 8 个机柜构成一个阵列,共计 512 个 GPU。Colossus 集群共有超过 1500 个机架,接近200 个阵列(见图 2-7)4、精细化运维、优化气流组织、采用智能温控系统等。2.32.3 亚太地区智算中心液冷应用现状与发展趋势亚太地区智算中心液冷应用现状与发展趋势。图 2-7 xAI Colossus 机房布局特斯拉 xAI Colossus 集群的液冷技术采用液冷整机柜设计,每个机柜含一台柜内机架式冷量分配单元 CDU(Cooli
33、ng Distribution Unit)。为保证液冷系统的可靠运行,柜内 CDU 的核心部件,如循环泵、电源都采用了 N+1 冗余设计并支持在线维护(见图 2-8)。1414图 2-8 特斯拉 xAI 机柜内置冷量分配单元柜内摆放的 8 台服务器都有液冷出入水口,通过支岔路水管 Monifold 与冷量分配单元连接进行散热。机架中仍保留了风扇系统,用于冷却内存(DIMM)、电源单元、主板管理控制器(BMC)、网卡等低功耗组件。为保证机柜内的热平衡,服务器机柜也配备了后门热交换处理器 RDHx(Rear Door Heat Exchange)(见图 2-9)服务器风扇从前部吸入冷空气,从后部排
34、出,随后经过后门热交换器处理。图 2-9 xAI 机柜后门热交换处理器在亚太区(除中国外),近两年数据中心建设规模最大和建设速度最快的地1515区是马来西亚。近两年,以秦淮数据海外公司 Bridge Data Center 和万国数据为首的中国数据中心运营商,以及东南亚本地的 NTT、STT 等成熟运营商都在积极部署液冷数据中心,当前马来地区的液冷数据中心规模也达到了 150MW 以上。2025 年开始,随着英伟达 GB200 NVL 液冷整机柜业务的大量部署,亚太地区的液冷数据中心也会进入高速增长期。中国作为亚太区最大的独立市场,在智算中心方面有系统化的规划。在 2024年的算力大会上,中国
35、电信研究院发布的智算产业发展研究报告(2024)显示(见图 2-10),截至 2024 年 6 月,中国已建和正在建设的智算中心超 250 个,已建成的有 40 多个。图 2-10 中国智算中心规划布局图其中,中国电信临港算力中心就是其中的优秀案例。作为上海“东西两翼”智算中心之一,临港算力公司建成了长三角首个国产单池万卡液冷算力集群,智算容量超 5EFLOPS,能够支持万亿参数大模型训练。这一成就不仅为科研院校、大模型公司等企业机构在 AI 计算、深度学习、训练推理等研究中提供了澎湃的算力支持,其在基础设施层的优秀特征如下:一是建设创新型的“两弹一优”基础设施。临港算力网通过弹性供电、弹性供
36、冷、机房气流组织优化的“两弹一优”,实现多元算力组合快速交付(见图16162-11)。弹性供电方面,通过机柜设备的“小母线+弹性方舱”配电系统,一舱解决不同客户集群部署模式带来的机柜功率变化需求。弹性供冷方面,采用冷冻水系统、热管多联系统、液冷系统等多种数据中心冷却手段,统筹预留基础设施管井及接口,实现制冷技术弹性应用。机房气流组织优化方面,通过流体动力学模拟计算机架和机房的气流组织,精细化设计冷热通道,开展建设性设计和周期性优化,综合提升供冷效率。图 2-11 弹性制冷循环系统与能效分布图二是通过创新性研究解决行业难点问题。通过使用中距离跨区 RDMA(远程直接内存访问)进行市内算力组网,解
37、决算力资源分散无法被集中调用的问题。通过使用跨区 RDMA 协议和广域拓扑感知并行策略,对跨数据中心大模型训练提出针对性模型训练策略建议,为客户提供合适的解决方案,提升训练效率。联合国内算力上下游生态合作伙伴为客户提供适配测试服务。自 2023 年 9 月投入运营以来,建设大规模商用液冷资源池,通过“两弹一优”实践创新解决机柜功率的变化需求,支持单列机柜功率密度从 8kW 到 48kW之间灵活适配。目前,跨区 RDMA 组网已完成 128、512 卡 30KM 对比验证,训练效率可达单集群的 95%以上,完成 5 家大模型训练性能测试,支撑星辰 115B等基础大模型平稳训练,集群可用率达到 9
38、0%以上。1717第第三三章章、液液冷冷主主流流技技术术路路线线及及架架构构分分析析3 3.1 1 液液冷冷通通用用架架构构液冷架构由多个部分组成,并且每个部分还可以继续细分,但本质上液冷架构可以描述为三个部分:热捕获,热交换,冷源。下图 3-1 是简化后的液冷通用架构,它展示了液冷最核心的三个部分,方便我们将其归纳并讨论。图 3-1 液冷系统通用架构示意图3 3.2 2 热热捕捕获获液冷的热捕获指的是使用液体从 IT 组件中带走热量。根据热捕获的方式不同,液冷可以分为多种形式,当前主流的技术方案有三种:冷板式、浸没式、喷淋式。冷冷板板式式冷板式液冷(见图 3-2)的冷却液不与 IT 发热元件
39、直接接触,而是通过安装在发热元件(通常为 CPU/GPU 等大功耗部件)上的冷板(通常为铜铝等导热金属构成的封闭腔体)将热量带走,这种散热形式也称为非接触式液冷。1919图 3-2 冷板液冷实物图及原理图根据冷却液在冷板中是否发生相变,冷板式液冷可以分为以下两种类型:单相冷板和两相冷板。两种换热类型的制冷架构基本一致,主要区别在于二次侧冷却液不同。单相冷板一般采用沸点较高的水基冷却液,换热过程不发生相变。两相冷板一般采用沸点较低的制冷剂,换热过程会发生相变。冷却液的对比如下表 3-1:2020表 3-1 冷板式液冷冷却液对比冷板式液冷选择冷却液时,需要综合分析冷却液的热性能、环保、兼容性、价格
40、等因素。对于单相冷板液冷,需要特别关注冷却液的防腐和细菌抑制能力,否则不但会导致换热效率大幅下降,同时也可能造成泄漏,损坏服务器。推荐选择 25%丙二醇水溶液。对于相变冷板液冷,需要特别关注当地的环保法规和工作压力。推荐选择R515B、R134a、R513A、R1234yf。浸浸没没式式:浸没式液冷是将服务器内的元器件完全浸没在冷却液中,通过冷却液的循环将服务器的热量带走,这种散热形式也称为接触式液冷。根据冷却液在换热过程中是否相变,浸没式液冷可以分为以下两种类型:单相浸没、两相浸没。2121单单相相浸浸没没:单相浸没的箱体称为 TANK,低温的冷却液进入 TANK 后,吸收服务器的热量,然后
41、进入 CDU 中散热,整个过程中冷却液不会发生相变。实物图和原理图如下图 3-3:图 3-3 单相浸没式液冷实物图及原理图两两相相浸浸没没:两相浸没将 IT 设备浸没在沸点低于 IT 设备工作温度的冷却液中,当 IT 设备的运行温度达到冷却液的沸点后,会引起冷却液的局部沸腾,从而带走热量,蒸汽上升到达冷凝器盘管会变成液体并落下。实物图和原理图如下图 3-4:2222图 3-4 两相式冷板液冷实物图及原理图单相液冷和两相液冷两者的制冷架构基本一致,主要差异在于二次侧冷却液的循环方式。相变液冷的冷却液仅在浸没腔体内循环,而单相液冷的冷却液需要进入 CDU 中。冷却液是浸没液冷最需要关注的地方,也是
42、其大规模应用的最大瓶颈。浸没液冷将带电状态下的服务器完整的浸没在冷却液中,因此充当换热介质的冷却液必须是不导电的高稳定介电液体,这样的介电液体通常不溶(或难溶)于水,可最大限度保障其绝缘性不被轻易破坏。浸没液冷所使用的介电液体可以分为两大类:油类、氟化液。油类沸点非常高,因此只应用于单相浸没;氟化液种类繁多,可以配制成各种沸点,例如从 55到 200以上。低沸点(例如 55)用于两相浸没,而高沸点用于单相浸没。两者的对比如下表 3-2:2323表 3-2 浸没式液冷冷却液对比浸没液冷在选择冷却液时,需要从以下几个方面综合考虑:1、综合热性能2、信号完整度3、兼容性、可靠性、维护4、环保浸没液冷
43、的冷却液推荐氟化液,它的综合热性能优秀,并且有非常好的兼容性和可靠性,缺点是价格昂贵,并且需要关注当地的环保法规。喷喷淋淋式式喷淋式液冷是用低温冷却液直接喷淋 IT 组件的发热元件,吸热后的高温冷却液换热后再次循环进入服务器喷淋,整个过程中无相变。它和浸没式液冷一样也属于接触式液冷,差异在于喷淋式加强了对流换热。喷淋式液冷的实物图及原理图如下图 3-5:2424图 3-5 喷淋式液冷实物图及原理图喷淋式与单相浸没式液冷比较类似,可以把它当作一种特殊形式的浸没液冷,因此喷淋式可以采用与单相浸没一样的冷却液。三三种种热热捕捕获获技技术术对对比比三种热捕获技术都有各自的优缺点及适用场景,我们从以下这
44、些维度进行比较,见表 3-3:2525表 3-3 三种液冷技术对比液冷技术在进行方案选择时,还需要重点考虑服务器的侧的条件,通过服务器侧的具体信息反推基础设施侧采用何种液冷技术。3 3.3 3 热热交交换换液冷的热交换主要通过 CDU(Coolant Distribution Unit)即冷量分配单元来实现。作为连接一次侧和二次侧的“桥梁”,CDU 中包含热交换模块、泵模块、过滤模块、补液模块、监测模块、控制模块等,这些模块集成在一起,实现以下三项功能:1、一/二次侧流体的热交换及隔离2、冷却液的温度、流量、压力控制3、冷却液监测&处理除了以上三项关键功能,还需要关注 CDU 的类型,可以从以
45、下两个方面具体分析:换热方式和安装形式。CDU 的换热方式2626表 3-4 CDU 换热方式分CDU 的换热方式描述是在 CDU 中换热的二次侧和一次侧工质。如前文所述,二次侧的工质分为单相 L(Liquid)和两相 R(Refrigerant)。一次侧的工质有三种:A(Air),L(Liquid),R(Refrigerant)。CDU 按照换热方式分类如下见表 3-4:类CDU 的的安安装装方方式式CDU 的安装方式不仅决定了它的安装位置,同时也决定了它的容量和所带末端的数量。可分为机架式(分布式)和机柜式(集中式)。两者的原理图如下图 3-6:图 3-6 CDU 安装原理图CDU 两种形
46、式分别对应不同的场景,对比如下表 3-5:2727表 3-5 CDU 安装形式对比3 3.4 4 冷冷源源液冷架构的冷源有多种方案可供选择。选择冷源前,要确定一次侧的供水温度,ASHRAE TC9.9 定义了一次侧冷水的温度等级,如下表 3-6:表 3-6 ASHRAE 液冷水温等级当水温较高且当地气候条件好,可以完全利用自然冷却系统,而当水温较低时,一般就需要利用机械冷却系统。还有一种情况比较特殊:部分老旧机房也会有智算需求,因此要对它们进行液冷改造,但普遍存在的问题是现场无法新增一套供液冷使用的冷源,所以只能将原有的精密空调作为冷源。因此,冷源共有三类:自然冷却系统、机械冷却系统(带自然冷
47、)、原有精密空调自然冷却系统。2828自然冷源系统可以分为:开式冷却塔、闭式冷却塔、干冷器、泵驱两相系统。开开式式冷冷却却塔塔系系统统:开式冷却塔在各种制冷场景下都被广泛使用。它的优点是散热效率高、占地面积小并且价格便宜。缺点是 WUE 高、运行水质差,因此在液冷系统中使用时需要在冷塔的出水口增加板换和泵组,避免 CDU 板换结垢。系统原理图如下图 3-7:图 3-7 开式冷却塔系统工作原理图闭闭式式冷冷却却塔塔系系统统:闭式冷却塔由内循环和外循环组成,内循环向系统提供冷却水,它是一个封闭的系统,所以水质比较好,不需要增加板换,WUE 也会低于开式冷却塔。缺点是价格昂贵且体积大。系统原理图如下
48、图 3-8:图 3-8 闭式冷却塔系统工作原理图干干冷冷器器系系统统:干冷器即干式冷却器,它的管内是冷却液,与环境空气直接换热,工作过程没有消耗水。优点是 WUE 为 0(或非常低),价格便宜。缺点是换热效率较低,2929对空气质量和环境温度有较高要求。干冷器也可以配置水喷淋系统以增强在高温季节的换热能力。系统原理图如下图 3-9:图 3-9 干冷器工作原理图泵泵驱驱两两相相系系统统:泵驱两相系统主要由氟泵、冷凝器、储液管组成,采用相变冷却。优点是换热效率高,不需要考虑防冻和水质处理。缺点是价格较高,维护复杂。该系统的冷凝器可以选择风冷冷凝器或者蒸发式冷凝器,前者 WUE 为 0,后者换热效率
49、高。系统原理图如下图 3-10:图 3-10 泵驱两相系统工作原理图除了以上这些自然冷源之外,还有一些比较高效的自然冷源,例如间接蒸发冷却塔、干湿联合式冷却塔等。他们都是在上述自然冷源的基础上进行的优化拓展,可以使用同样的液冷架构。机机械械冷冷却却系系统统(带带自自然然冷冷)机械冷却是指带有压缩机的直膨系统。该系统可以提供更加低温的一次侧冷3030却液,满足液冷系统的进液要求,同时不受环境温度的限制。在液冷系统的应用中,机械冷却会加入自然冷模块,从而提高全年能效比。可以分为风冷冷水机+水侧自然冷系统,水冷冷水机+水侧自然冷系统,磁悬浮相变+氟泵自然冷系统。风风冷冷冷冷水水机机+水水侧侧自自然然
50、冷冷系系统统该系统的常用配置是在风冷冷水机的基础上配置一套干冷器或者绝热冷却器(可额外配置也可集成在冷机上),实现过渡季节的部分自然冷和寒冷季节的完全自然冷。该系统的优点是省去了冷却水系统,安装方便,适应性更强,WUE 为 0(干冷器)或者非常低(绝热冷却器)。缺点是运行过程中容易受环境因素影响,对比水冷冷水系统能效偏低。系统原理图如下图 3-11:图 3-11 风冷冷水机+水侧自然冷系统工作原理图风风冷冷冷冷水水机机+水水侧侧自自然然冷冷系系统统通过调节阀 1、2、3 的状态,可以分别实现机械冷、部分自然冷、完全自然冷。工作状态如下表 3-7:表 3-7 工作模式切换表3131水水冷冷冷冷水
51、水机机+水水侧侧自自然然冷冷系系统统:该系统被广泛的应用在冷冻水数据中心,它是在水冷冷水机的基础上额外增加了一套板换组件从而实现自然冷源的利用。该系统的优点是制冷效率高,运行稳定,运维简单。缺点是前期投资大,耗水量高。系统原理图如下图 3-12:图 3-12 水冷冷水机+水侧自然冷系统工作原理图通过调节阀 1-4 的状态,可以分别实现机械冷、部分自然冷、完全自然冷。工作状态如下表 3-8:表 3-8 工作模式切换表磁磁悬悬浮浮相相变变+氟氟泵泵自自然然冷冷系系统统该系统由磁悬浮压缩机、氟泵、储液罐、阀件、换热器等部件组成。冷凝器可选择干冷器或者蒸发式冷凝器,前者 WUE 低,后者能效高。该方案
52、不使用水作为载冷剂,二是直接向 CDU 输送制冷剂,对应的 CDU 类型为 L2R 或 R2R。优点是换热效率高,无油系统稳定性好。缺点是价格昂贵,维护难度比水系统大。3232它有两种运行模式:机械冷和氟泵自然冷。低温时氟泵单独工作,实现完全自然冷。系统原理图如下图 3-13:图 3-13 磁悬浮相变系统工作原理图原原有有精精密密空空调调系系统统利用机房现有的精密空调作为液冷系统的冷源时,对应的 CDU 类型为 L2A或 R2A,安装形式可以为机架式或者机柜式。液冷服务器的热量传递给机房内的空气,最终由精密空调的冷凝器将热量散到室外。液冷改造类项目的限制条件较多,因此并不是每种热捕获形式都适用
53、。目前冷板式液冷对原有机房的承重、机柜、服务器等兼容性最好,所以液冷改造项目以冷板式液冷为主。原理图如下图 3-14:图 3-14 原有空调系统液冷改造原理图冷冷源源选选择择建建议议3333本节的冷源选择建议针对新建的液冷数据中心。选择冷源时,需要从以下几个方面综合考虑:1、一次侧供液温度等级2、气候条件(温度、湿度、气温变化范围等)3、水资源情况及 WUE 政策4、技术因素(能效、可靠性、冷却介质等)5、经济因素(初投资&运行成本)6、其他因素(建设周期、可扩展性、建筑形式等)本文中所涉及的冷源选择建议如下图 3-15:图 3-15 冷源选择建议需注意:一次侧供液温度与当地气象参数相关联,同
54、样的供液等级在不同地区的冷源形式可能不同。3 3.5 5 液液冷冷架架构构分分类类3434液冷系统的三个核心部分组合在一起可以形成多种液冷架构。热捕获形式中,喷淋式液冷的应用案例太少,未形成完整的产业链。因此,液冷架构还是以冷板式和浸没式为主,可以归纳为下表中的 8 种架构,见表 3-9:表 3-9 液冷架构分类以上每种架构都有各自适用的场景,可以根据下表 3-10 选择合适的液冷架构:表 3-10 各类液冷架构特点35353535第第四四章章、风风液液混混合合制制冷冷架架构构的的特特点点分分析析4 4.1 1 风风液液融融合合是是智智算算中中心心液液冷冷应应用用的的必必由由之之路路根据 Up
55、time 的研究报告,见图 4-1,当前绝大部分数据中心的液冷方案还是以冷板式为主。因此,现阶段需要重点关注冷板式液冷。如前文所述,冷板式液冷主要解决服务器中大功率部件的散热问题,这部分的发热量约占服务器总发热量的 50%-85%,其余部分的散热仍要依靠传统的风冷形式。图 4-1 各项液冷技术应用占比这种同时使用液冷和风冷为服务器散热的方式称为风液融合。前面已经描述了液冷架构,风液融合架构只需要在液冷架构的基础上增加风冷部分即可。4 4.2 2 常常见见的的风风液液融融合合架架构构风液融合架构可以归纳为三大部分:二次侧的液冷和风冷部分以及一次侧冷源。其中液冷部分是确定的,风冷部分和冷源有多种变
56、化。根据液冷与风冷是否共用同一套冷源,可以将该架构分为风液同源架构和风液独立架构两种类型。风风液液同同源源架架构构3737风液同源架构按照冷源和风冷部分的不同组合,可以分为冷却塔+动态双冷源架构、冷水主机+冷冻水末端架构、磁悬浮相变系统+热管末端架构。冷冷却却塔塔+动动态态双双冷冷源源架架构构该架构的室外侧冷源使用冷却塔(开式、闭式)或干冷器向二次侧提供冷却水。二次侧的风冷部分采用动态双冷源空调,它包含一套冷却水系统和一套压缩机系统。液冷为完全自然冷,风冷为部分自然冷。架构模型如下图 4-2:图 4-2 冷却塔+动态双冷源架构双冷源空调为弥漫式送风的大风墙,安装在设备间中。当冷却塔的供水温度较
57、低时,冷却水盘管单独工作;当冷却塔供水温度较高时,开启压缩机系统进行补冷。该架构当前应用案例较多,整个系统没有冷水机,所以成本较低;并且采用分布式冷却塔,可以有效避免单点故障。双冷源空调安装在设备间内,与机房内设备解耦,非常适合租赁型业务。冷冷水水主主机机+冷冷冻冻水水末末端端架架构构该架构的室外侧冷源使用前文所述的带有自然冷模块的冷机(风冷冷机、水冷冷机),因此可以提供的水温区间比较大。二次侧风冷部分使用冷冻水末端,它不局限于大风墙这一种形式,还可以是列间、小风墙、背板等形式。架构模型如下图 4-3:3838图 4-3 冷机+冷冻水末端架构与冷却塔+双冷源空调相比,该架构在室外侧实现了“双冷
58、源”,冷机的压缩机系统仅在环境温度较高时才开启。优点是该架构的末端非常灵活,有多种应用形式,可以适应更多的场景,例如液冷机柜的预制式一体方案等。缺点冷机的供水温度要兼顾末端冷冻水空调,因此整体的能效会略低于冷却塔+双冷源的方案。为了提升能效,可以对该架构的细节进行优化,如下图 4-4 所示:室外侧使用冷却塔+集成板换的水冷冷机,室内侧风冷部分使用水冷 DX 空调,由冷却塔散热。冷机在液冷系统中只负责应对低温水的需求,因此能效会有明显的提升。该架构为全链路的冷水方案,空调使用水氟换热器进行散热,可以兼容双冷源空调、水冷氟泵空调等制冷形式。液冷部分配置集成板换的水冷冷机,压缩机只在需要时开启,同时
59、可提供比较宽的水温区间。3939图 4-4 冷机+水冷 DX 空调架构随着人工智能的快速发展,芯片的 TDP 也快速提高,根据 OCP 的研究,见图 4-5:到 2030 年,GPU 芯片的 TDP 将达到 1.5kW。更高的发热量需要更低的冷却液温度,1.5kW 发热量对应的冷却液温度区间为 20-40,为了应对芯片的快速迭代并保证制冷设备可长期使用,合理的冷却液温度是 30,对应的一次侧的供水温度必然小于 30。在这种情况下,使用冷机作为一次侧冷源的优势就非常明显了,因为它在高温季节仍可以提供比较低的供水温度,而冷却塔显然无法做到。冷源侧配备冷机能非常好的应对将来芯片功率的发展趋势,从耐用
60、性的角度而言,它是极佳的解决方案。因此,可以预测未来的液冷系统中,冷机组会成为必选项,以它作为冷源的风液同源架构也会得到更多的应用。4040图 4-5 OCP 关于芯片功率与冷却液温度的研究磁磁悬悬浮浮相相变变系系统统+热热管管末末端端架架构构该架构的室外侧冷源使用带有氟泵自然冷的磁悬浮相变系统,见图 4-6。二次侧风冷部分使用热管末端,可采用多种形式,例如:大风墙、小风墙、列间、背板等。CDU 的换热类型为 L2R。图 4-6 磁悬浮相变+热管末端架构与前两个架构相比,该系统没有使用水作为载冷剂,而是直接将制冷剂输送到 CDU 和末端空调,这样可以减少换热次数从而带来更高的能效。同时也和冷4
61、141机一样可以提供更低的一次侧供液温度,但在成本和维护方面并不占优,所以目前的应用案例相对较少。风风液液同同源源架架构构分分析析:风液同源架构最大的优点是风液比可调,适配弹性部署。对于很多数据中心(尤其是租赁型)而言,在建设初期很难准确预测业务在其生命周期内的具体部署情况。不同业务类型的服务器有不同的风液比,例如GPU 训练服务器的液冷比例可高达 85%左右,而大数据存储服务器的液冷占比约为 50%,并且某一阶段可能两者混用甚至全部使用风冷服务器。因此,该类数据中心在设计阶段就要明确一次侧冷源是共享的,可同时兼容风冷和液冷,提供 100%的制冷量。并且冷源可以与二次侧末端一起调节,实现不同的
62、风液比。除此之外,风液同源架构的一次侧冷源在规模应用时,还需要实现分布式和一体化设计。这样做的优点是可以支持小规模的分期建设,降低系统性风险,简化现场布管和调试。风风液液独独立立架架构构风液独立架构指的是风冷和液冷分别使用各自独立的一次侧冷源。现阶段,液冷部分的一次侧冷源通常使用冷却塔(部分地区使用干冷器或冷机),该方案可同时兼顾能效和成本。风冷部分的选择相对于风液同源架构更加灵活多样,数据中心常用的空调类型:例如氟泵自然冷机组、冷冻水系统、间接蒸发冷机组、新风系统、风冷直膨空调都可以使用。风冷部分使用冷冻水系统架构模型,图 4-7:图 4-7 风冷部分采用冷冻水系统架构4242该架构与传统的
63、数据中心的制冷方式最接近,成熟度高兼容性好,对机房建筑形式和设备维护都非常友好,控制更加简单,运行更加平稳。缺点是管路复杂,成本高。风冷部分使用间接蒸发冷架构模型,图 4-8:图 4-8 风冷部分采用间冷架构该架构的优势在于间接蒸发冷+液冷的组合能效非常高,且都是预制化设备,交付周期大幅缩减。但是间接蒸发冷机组对建筑的层数有要求,一般不超过 4层。该系统的 WUE 会比较高,因此在缺水地区也可以使用传统的精密空调。风冷部分使用精密空调架构模型,图 4-9:图 4-9 风冷部分采用 CRAC 架构4343该架构的风冷部分技术成熟度高,不受水资源和建筑形式的限制,是种通用性很高的方案。如果当地冬季
64、气温较低,可以考虑增加氟泵自然冷模块提升能效。风风液液独独立立架架构构分分析析:与风液同源架构相比,风液独立架构对于需要弹性部署的数据中心并不适用,原因是该架构实现风液比可调的成本太高。高弹性机房的冷源总冷量可以通过下表 4-1 进行比较:表 4-1 不同架构的高弹性机房所需冷量对于业务明确的数据中心,风液比是相对固定的,此时风液独立架构的优势就很明显:风冷与液冷部分完全解耦,可以因地制宜根据项目实际情况选择最佳的风冷和液冷组合方案,能效和可靠性都得到提升。综上所述,两种架构都有各自适合的场景。对于业务不确定,需要弹性制冷的场景,优先选择风液同源架构;对于业务明确的场景,优先选择风液独立架构。
65、同时,不论选择哪种架构,室外侧冷源都要进行分布式和一体化设计。4 4.3 3 不不同同风风液液融融合合架架构构下下 W WU UE E、P PU UE E、T TC CO O 对对比比分分析析前面两节介绍了多种形式的风液融合架构,下面对它们的 WUE、PUE 和 TCO进行对比,见表 4-2。对比之前需明确的条件如下:1.地点为马来西亚新山;2.一次侧供液温度 35;3.冷冻水系统使用水冷冷机,磁悬浮系统使用蒸发式冷凝器,风液独立架构中液冷部分使用冷却塔;4.液冷占比为 50%-85%。4444表 4-2 各种风液融合架构对比下表 4-3 是马来西亚通信与多媒体委员会(MCMC)发布的绿色数据
66、中心规范-2024 中关于PUE的分级。当使用风液融合架构时,可以达到最佳的Excellent等级。表 4-3 马来西亚数据中心 PUE 分级4 4.4 4 架架构构选选择择建建议议冷板式液冷的应用中,风液同源与独立架构都有各自适合的场景,要针对项目的具体情况来选择最佳的架构。综合前文所述的内容,冷板式液冷的风液融合架构可以参考下图 4-10 进行设计:4545图 4-10 风液融合架构选择建议需要注意的是架构的选择要灵活,需根据实际情况具体分析。例如业务是固定的,但现场空间有限或者想要简化系统从而缩短工期,也可以考虑使用同源架构。4646第第五五章章、典典型型智智算算中中心心液液冷冷应应用用
67、场场景景的的选选择择分分析析智算中心是 AI 时代最主要的计算力生产中心,它能够以强大算力驱动 AI 模型对数据进行深度加工,源源不断产生各种智慧计算解决方案,并通过网络以云服务形式供应给组织及个人。在第三章和第四章,我们分析了不同的液冷技术、液冷系统方案和风液混合液冷架构。从分析中我们发现,不同的方案和架构都有其特点和适合的场景。在实际应用中,我们需要根据实际的项目的环境条件、业务需求和运营目标,选择合适的架构。本章会以大型智算中心和中小型智算中心为例来阐述如何进行进行液冷架构的选型。5 5.1 1 大大型型智智算算中中心心的的液液冷冷架架构构大大型型智智算算中中心心的的特特点点大型智算中心
68、通常配备数千到数万台高性能服务器,具备 PFlops(每秒千万亿次浮点运算)级别或更高的计算能力,能够满足复杂的智能计算需求。它通常采用先进的计算架构和硬件设备,如高性能计算集群、大规模存储系统以及高速网络等,以确保计算任务的高效执行。大型智算中心对业务的连续性有非常高的要求,并且在部署上具有一定的灵活性,能够根据客户需求和场景进行定制化服务。同时,它需要具备支持多种计算模式和架构灵活切换和扩展的能力。大型智算中心主要服务于人工智能、大数据分析、深度学习等需要强大智能计算支持的领域。除了 AI 领域外,还广泛应用于物联网、工业互联网等新兴领域,并与更多行业深度融合,如医疗、交通等。大大型型智智
69、算算中中心心的的液液冷冷架架构构由于高性能计算设备(如 GPU 和 AI 加速器)产生的热量远超传统服务器,风冷系统的冷却效率有限,因此液冷方式成为最佳选择。如前文所述,冷板式液冷具有更高的兼容性和成熟度,因此可以作为大规模应用的优选方案。参考第三章和第四章的内容,液冷架构分为热捕获、CDU、冷源三个部分,而冷板式液冷需要风冷进行补充,又分为风液同源和独立两种类型。设计时可以分两步来确定最终的架构:4848一:先罗列出所有的已知条件,然后根据这些条件分别对每个部分进行选型,最后将这些部分组合起来,对照第三章架构表中的-,就可以得到最合适的液冷架构。二:根据业务类型,确定风液同源或独立架构,然后
70、选择合适的风冷方案与之配合。我们以东南亚地区为例,一次侧供液温度 35,各部分尽量选择能效高、成本适中、技术成熟的方案。选择冷源时要综合分析:从一次侧供液温度的角度考虑,选择冷却塔即可;从制冷设备的长期使用和风冷末端灵活性考虑,带自然冷的水冷冷机则更合适。步骤一,见图 5-1:图 5-1 大型数据中心液冷架构选型步骤二,图 5-2:4949图 5-2 风液融合架构选型经过以上两个步骤,就完成了风液融合架构的搭建,架构模型如下:风风液液同同源源方方案案,见图 5-3:图 5-3 风液同源方案架构图风风液液独独立立方方案案,见图 5-4:5050图 5-4 风液独立方案架构图两种方案的风冷末端都推
71、荐大风墙,它可以安装在设备间内,实现与机房设备的解耦。5 5.2 2 中中小小型型智智算算中中心心的的液液冷冷架架构构中中小小型型智智算算中中心心的的特特点点中小型智算中心通常规模较小,一般配备数十到数百台服务器,包含有限的计算资源、存储资源和网络资源。以高性能计算为基础,融合深度学习、机器学习等先进算法,专注于处理大规模、复杂的数据分析和智能决策任务。相较于大型智算中心,中小型智算中心在部署上更加灵活,能够根据客户需求和场景进行定制化服务。在快速变化的市场环境中,它能够更快地响应客户需求,提供及时的技术支持和解决方案。中小型智算中心更侧重于满足特定行业或场景下的计算需求。例如为医疗、零售等领
72、域提供定制化的解决方案。另外在部分高性能计算领域,如教育及科研基本都以中小型智算中心为主。中中小小型型智智算算中中心心的的液液冷冷架架构构冷板式液冷同样适用于中小型智算中心,但是相比于大型智算中心,它对液冷技术的兼容性和成熟度的要求略低一些,并且高性能计算的发热量非常大,因此浸没式液冷也是一个不错的选择。根据中小型智算中心的特点,液冷架构应该实现灵活高效、系统简单、快速部署、“一键开机”等要求。5151我们仍然按照前文所述的两个步骤来搭建液冷架构,以东南亚地区为例,一次侧供液温度 35。步骤一,见图 5-5:图 5-5 中小型数据中心液冷架构选型步骤二:浸没式液冷方案,见图 5-6:浸没式为
73、100%全液冷,不需要风冷进行补充,因此架构相对简单一些,冷源选用冷却塔即可。推荐采用一体式 TANK,它已经将 CDU 内置,工程现场只需要一些简单的操作。图 5-6 浸没式液冷方案5252冷板式液冷方案,见图 5-7:冷板式液冷应用在中小型智算中心时,为了实现快速部署、简化系统、降低工程量等要求,应尽量将风冷部分与液冷部分融合在一起。风液共用同一冷源,极大地简化现场管路。一体化机柜将风冷和液冷集成在一起。背板空调安装在机架上,负责风冷部分,它所需的水温较低,需采用机械冷源。该方案高度预制化,可以实现快速部署、“一键开机”等功能,因此优先推荐该方案。图 5-7 预制一体化液冷方案5353第第
74、六六章章、液液冷冷系系统统的的预预制制化化智算中心与液冷技术的应用,除了新技术的引入以外也对智算中心的建设、部署和工程提出了新挑战。特别是在芯片昂贵、产品技术新、行业工程经验不足的情况下,客户希望的越来越快的交付时间和运营方希望的高质量之间存在越来越多的矛盾和挑战。在此情形下,液冷系统预制化越来越成为一种流行的选择。本章会从数据中心的预制化发展开始,阐述液冷系统预制化的形成、分系统形态和产品特征。6 6.1 1 数数据据中中心心产产品品预预制制化化发发展展的的趋趋势势与与价价值值6 6.2 2 冷冷源源预预制制化化方方此外,中国数据中心快速发展,为应对算力发展中持续增长的能耗问题,液冷由于具有
75、高密度、高集成、低碳绿色的优势,成为数据中心发展的趋势。根据赛迪顾问发布的2023-2024 年中国液冷数据中心市场研究年度报告显示 2023年液冷市场规模为 86.3 亿元,相比上一年同比增长达 26.2%,高于全球 2 个百分点,连续三年保持 20%以上的高速增长。预计到 2026 年,中国液冷数据中心市场规模将达到 180.1 亿元,同比增长将达 29.1%。针对液冷系统预制化,现阶段冷源侧、液冷机柜、液冷微模块、冷板式液冷集装箱等均有相关预制化产品及方案。案案预预制制化化集集成成冷冷站站预制化集成冷站是将传统的冷水机组机房系统进行有机整合,集冷水机组、冷水输配及水处理系统、冷却水输配及
76、水处理系统、换热站、动力系统、集中控制系统于一体的高效冷水机房系统,具有高效集成、节能绿色、管理及维护成本低等特点,相比装配式冷站,集成度更高。预制化集成冷站的形式主要有集装箱5555传统数据中心不仅建设周期长,初期投资成本大,而且各个子系统之间孤立,规划和建设分离,拼凑式建设模式给后期运维管理也带来较大的难度 为应对此弊端,数据中心预制化、模块化逐渐从数据中心的弱电设备、环境设备向整个数据中心延伸,从模块化 UPS、模块化温控、模块化母线等数据中心部件到电力/水力模块、微模块、IT 模块等模块化解决方案再到模块化数据中心 在预制化、全模块化设计下,将各个子系统预集成在模块内,在工厂进行预制组
77、装,标准化生产流程,各个模块品质如一,多系统协同设计,并且在出厂前完成全系统调试和测试,确保高质量和高可靠性 同时现场只需完成极简施工,可大大降低现场管理难度及施工风险,有效提升数据中心可靠性 预制化的数据中心具备快速部署、弹性扩容、运维简单、高效节能等优势,整体而言数据中心必然向着产品化、预制化、模块化的方向发展。式、方舱式。集装箱式根据项目情况和气候条件可以安装在室内,也可以安装在室外。具体可细分为单元式预制集装箱集成冷站模式和组合式预制集装箱集成冷站模式。单元式预制集装箱集成冷站(见图 6-1)一般可根据不同的冷量将其划分为三类:类型一单元制冷量 350RT 以下,类型二 400600R
78、T,类型三 7001800RT;类型一和类型二拼接方式为独立式,类型三拼接方式可以水平及垂直叠放。图 6-1 单元式预制集装箱集成冷站组合式预制集装箱模式(见图 6-2)一般可分为三种类型,类型一:冷机模块+板式换热器模块+管路切换模块+水泵模块,此模式的缺点是维护空间相对比较狭小,后期运营维护稍有不便;类型二:冷机模块+板式换热器模块+水泵模块;类型三:主机模块+板换水泵模块+管道模块+检修模块。图 6-2 组合式预制集装箱集成冷站方舱式具体可以分为室内方舱及室外方舱,室内方舱(见图 6-3)是由管路撬块、单体设备撬块等组成,相应撬块可以直接吊装过来,完成对接就可以交付;室外方舱(见图 6-
79、4)是由冷源模组、水力模组、蓄冷罐、冷站控制室等组成。5656图 6-3 室内方舱集成冷站图 6-4 室外方舱集成冷站一体化冷源一体化冷源一体化冷源是高度集成化的产品,它将冷却塔、水泵、加药装置、定压补水装置等集成在一起,现场只需完成接电和通水即可运行,其中一体化冷源类型有闭式冷却塔、开式冷却塔、间接蒸发冷却冷水机组。一体化冷源在冷板式液冷同源架构动态双冷源系统(见图 6-5)中有较好的应用。现阶段维谛技术、曙光数创等均推出有应对冷板式液冷的一体化冷源解决方案。图 6-5 冷板式液冷一体化冷源(动态双冷源)系统5757对于间接蒸发冷却一体化冷源(见图 6-6)是利用间接蒸发冷却技术产出低于湿球
80、温度的冷却水,可以在全国大多数地区实现风、液系统全年自然冷却。风、液通道冷源集成于冷站内,极大降低了系统建设难度和成本(减少机械制冷投入),最大程度降低系统能耗。以西北地区为例,极端湿球温度在 20-24,利用间接蒸发冷却技术可以全年制取 20-22以下冷却水,满足液冷机房气通道供水温度要求。目前,间接蒸发冷却技术结合板式液冷系统,在广东(高温高湿地区)、浙江(华东地区)、山西(华北地区)均有实现全年 100%自然冷却的应用案例。图 6-6 间接蒸发冷却一体化冷源一体化冷源的核心就是用一套自然冷却的冷源,来解决整个数据中心的风冷和液冷的所有冷却需求,从而让一套大环网整体去带动风侧的精密空调和液
81、冷侧CDU,无论是风侧的空调还是液冷侧 CDU 它们的换热冷源都来自于一套一次侧系统,这样大大简化了数据中心的管理复杂度,另外在数据中心建设时可以一次性地按照整个数据中心的规划容量建设好一套匹配电力容量的全冷量自然冷源,或者至少可以先把大的管路环网先建好,然后后面再分批分期建设冷却塔和水泵。此外,因为要搭载冷板式液冷服务器,因此一定要建一套自然冷却的系统,而且在可预见的未来液风比肯定会越来越高,风冷的冷量需求占比将越小,一体化冷源系统中风液比例可以灵活调节,且可以实现弹性部署。对于大型数据中心通常分期建设,并且要严格控制系统性风险,采用分布式一体化冷源的小颗粒度设计也可以支持小模块分期建设和扩
82、展,降低系统性风险。6 6.3 3 一一体体化化液液冷冷机机柜柜及及液液冷冷微微模模块块一一体体化化液液冷冷机机柜柜目前一体化液冷冷机柜产品按照液冷形式可分为冷板式液冷机柜及单相浸没式液冷机柜,分别介绍如下。一体化冷板式液冷机柜(见图 6-7)以单个机柜为单位,采用模块化设计理念,高集成、高标准设计,整合 IT 机柜、配电单元、封闭组件、制冷单元、布线、综合运维等功能独立的单元,由机柜、Manifold 管路、液冷服务器、液冷快速连接器以及插框式 CDU 构成。单柜内全部组件在工厂预制安装、调试,可灵活拆卸、搬运,既节约机房空间又可灵活扩展,实现现场批量快速部署。一体5858化液冷机柜作为液冷
83、设备的载体,每个设备之间用液冷专用软管进行连接,用来保证散热效果。图 6-7 一体化冷板式液冷冷机柜示意图一体化单项浸没式液冷机柜(见图 6-8),采用单项浸没式液冷技术,将发热电子元器件如芯片、主板、内存条、硬板等直接浸泡在绝缘、化学惰性的冷却液中,通过循环的冷却液将电子元器件产生的热量带走,因发热元器件冷却均匀度更好,大幅提高了传热效率。同时内置了监控模块,对液冷机柜中的电力及运行环境实时监控,针对运行状况实施实时控制,以及针对各个机柜的进出流量进行控制。一次 CDU 供液采用集中供液方案,满足集中换热的同时又可单独于运维;二次侧供、回液管路与机柜之间可采用法兰链接,管路上需设置阀门,确保
84、机柜与一次侧管路之间可以拆卸维护,供回路可采用双进双出的管路设计。冷却液循环管路及接头应具有良好的密封性和兼容性,在系统使用寿命周期内不产生腐蚀、漏液等潜在风险,机柜侧管路可采用高分子材料或无缝钢管等材质。图 6-8 一体化单项浸没式液冷机柜供液示意图液液冷冷微微模模块块液冷微模块产品(见图 6-9)集成风冷、液冷、供配电、机柜、气流遏制、监控、照明、布线等子系统,各子系统标准化、智能化程度高,独立运行,联合管理,将复杂的液冷工程,变为简洁的模块化产品,可通过模块化设计、工厂预5959制,从而减少数据中心设计和运维成本,并能实现部署速度提升 50%。现有液冷微模块产品制冷系统采用冷板式液冷,满
85、足高散热量、高功率密度场景需求。图 6-9 液冷微模块产品6 6.4 4 冷冷板板式式液液冷冷集集装装箱箱冷板式液冷集装箱(见图 6-10)是一种采用液冷制冷系统+辅助风冷制冷系统,集成冷板式 IT 设备,单机柜电功率可达 20kW50kW 的集装箱数据中心解决方案。主要由集装箱结构系统、供配电系统、制冷系统(液冷系统+辅助风冷系统)、液冷服务器机柜系统、消防系统、安防及动环监控系统等组成。冷板式液冷集装箱是一款集高密性、节能性和独立性的边缘数据中心产品,可以满足严苛的户外环境运行条件,具备经济灵活、快速部署、按需建设等多方面优势。目前标准集装箱规格有 20 尺、40 尺、45 尺,非标尺寸可
86、根据项目不同进行定制化设计。以某品牌 45 尺冷板式集装箱为例进行构成剖析,此款产品尺寸13716*3000*3600mm(W*D*H),单机柜平均功耗 20kW,单模块可放置 6 个液冷机柜,单模块最大 IT 总功率120kW,模块总电功率150kW,单机柜最大容纳节点数 24 个。液冷配置兼容设计,一次侧最高支持 37进水(去离子水);一次侧冷源 N+1 冗余备份,采用环形管路的形式,一次侧循环泵(1+1)备份模式,液冷 CDU(1+1)备份。二次侧支持最高 40供水(去离子水),二次侧采用环形管路,减小二次侧管路因泄露造成的故障颗粒度,冷源采用干冷器。6060图 6-10 冷板式液冷集装
87、箱(45 尺)6161第第七七章章、传传统统风风冷冷数数据据中中心心的的液液冷冷改改造造除新建智算中心需要引入液冷之外,传统数据中心因为业务的变革也会逐步的开始承载高热密度的智算业务。传统的数据中心由于机柜功率密度较低,因此制冷方式普遍采用风冷形式。在当前节点,很多传统数据中心都有液冷改造的需求,原因主要有两点:1、业务调整:随着 AI 时代的来临,很多数据中心将业务类型逐步由通算升级为智算。算力的升级需要高效的液冷技术与之配合。2、节能减碳:各国政府对数据中心 PUE 的要求越来越严格,而液冷相比传统风能节省约 20%-30%的能源,有效降低 PUE,助力实现节能减碳目标。对于液冷改造项目,
88、需要特别关注液冷技术与现有机房设备的兼容度,包括服务器、机架、机房承重、配电等。如果兼容性较差,那么改造的难度、工程量、成本就会非常高。从这个角度而言,单相冷板式液冷是现阶段非常合适的改造方案。传统数据中心的风冷类型主要分为以下两类,我们分别制定相应的改造方案。仍然以东南亚地区为例,一次侧供液温度 35。冷冷冻冻水水系系统统直直膨膨式式空空调调系系统统7 7.1 1 冷冷冻冻水水系系统统的的液液冷冷改改造造该系统改造时,需要先判断机房现场有没有新增一套液冷专用冷源的条件,根据这个条件可以将改造分为利旧原有冷源和新建专用冷源两种场景。利利旧旧原原有有冷冷源源当改造项目的现场没有充足的空间或项目预
89、算有限时,可以选择利旧原有冷源的方案。该方案与第四章所述的同源方案类似,在原有的冷冻水系统上引出一套管路供新增的液冷系统使用,并和原有的风冷系统共用同一套冷源。方案模型如下图 7-1:6363图 7-1 利旧原有冷源方案该方案的优势在于:与原有的冷却设备兼容度较高,只需新增一套管路即可;整体成本比较低;能效会有显著的提升。缺点是两套系统耦合,在改造和后期使用过程中会影响原有的风冷系统;由于使用旧的冷源,因此不适合扩容类的改造项目。新新建建专专用用冷冷源源该方案与第四章介绍的风液独立方案类似,在部署前需确认现场有充足的空间来新增一套液冷专用的冷源系统。新增的液冷冷源选用冷却塔。方案模型如下图 7
90、-2:图 7-2 新建专用冷源方案该方案的优势在于:两套系统完全解耦,在改造过程中不会影响原有业务的连续性;能效显著提高,优于共用原有冷源的方案;应用范围广,适合扩容类项63636464目。缺点是需要新增一套设备及管路,改造量大且成本高。7 7.2 2 直直膨膨式式空空调调系系统统该系统的液冷改造可以分为 L2A 和 L2L 两种类型。L2A 型型改改造造方方案案该方案与第三章介绍的使用原有精密空调作为冷源的架构一样,将液冷的热量传递给机房内的空气,然后再由原有的风冷空调将热量排到室外。CDU 使用L2A 型,它与新增的液冷机柜并排布置并用管路进行连接。方案模型如下图 7-3:图 7-3 L2
91、A 方案系统架构该方案的优势在于:与原有的冷却设备高度兼容,无需改造原有的风冷系统;整体成本低;L2A 型 CDU 可以预制,方便现场快速安装部署。缺点是能效有所提升但低于 L2L 方案;冗余性较差;CDU 占用较多空间,不适合大规模部署。L2R 型型改改造造方方案案该方案采用分体式冷水机,它可以用原有的精密空调进行改造,并与 CDU集成在一起,由水氟换热器、泵组件、定压补水装置等组成。室外侧可以直接使用原有的冷凝器。分体式冷机的原理图如下图 7-4,如果是在寒冷地区,可以考虑增加氟泵自然冷模块来提高全年能效。6565图 7-4 分体式冷机原理图方案模型如下图 7-5:图 7-5 L2R 方案
92、系统架构该方案的优势在于:两套系统完全解耦,在改造过程中不会影响原有业务的连续性;能效显著提高,优于 L2A 方案。缺点是改造量大且成本高。6666第第八八章章、典典型型智智算算中中心心液液冷冷系系统统运运行行挑挑战战相比于传统数据中心风冷系统,智算中心液冷系统在架构、末端热捕获形式、运维界面等方面有很大的不同。当液冷系统设备在运行时管路冷却介质发生压降、漏液、气阻、脏堵等情况时,由于热量的快速积累,给予运维人员的应急处理时间大大缩短。同时,液冷系统的运维经验相对较少,运维人员一方面需要适应新的系统架构和设备产品,改变传统的运维习惯,将基础设施和 IT 设备联动监控;另一方面需要快速响应并处理
93、液冷系统的各种故障场景。当前智算中心液冷系统的应用以冷板液冷更为常见,下面重点介绍冷板液冷系统运行过程中的挑战和一些关注点。8 8.1 1 冷冷板板系系统统可可靠靠性性验验证证液液冷冷系系统统可可靠靠性性验验证证液冷系统可靠性验证同样可按照四个阶段进行:厂验阶段,安装查验、系统设备功能测试阶段、系统联调及故障模拟阶段。1.厂验阶段应审查设备性能参数和功能是否设计要求,重点关注 CDU 设备、预制化管路、快速接头、manifold 的生产工艺、质检过程、出厂测试等内容。2.安装查验阶段审查竣工材料的完整性、准确性,审查是否存在系统设计缺陷,通过现场目视检查各子系统或设备在安装、外观、标识、线缆路
94、由、端子接线是否存在问题或隐患。重点关注一次侧、二次侧冷却液循环管路的密封性及洁净度保证、水力平衡调试、防漏水功能检测。3.系统设备功能测试阶段测试各子系统和设备功能是否满足设计和运行要求。4.系统联调及故障模拟阶段验证系统是否能够在不同的机房设计负载率工况下安全稳定运行,验证系统对不同场景下的设备动作、维护工作或故障场景的响应是否满足设计要求。系统联调及故障模拟阶段包含以下内容:1.在冷板液冷机房模块内的所有液冷机柜布置相应设计功率的液冷假负载和风冷假负载。2.通过开启风液冷假负载,使得测试机房模块通道内的风液冷热负荷达到100%,验证冷板液冷系统的 100%带载能力。3.通过开启风液冷假负
95、载,使得测试机房模块通道内的风液冷热负荷达到25%、50%、75%、100%,验证冷板液冷系统动态自动调节能力。4.通过模拟冷却塔、冷量分配单元、循环管路、动力设备、电力中断等单点故障场景,验证冷板液冷系统在各故障场景下的自动调节能力和运行安全稳定性。5.通过分别模拟冷板液冷系统中一次侧所有的循环水泵、冷源设备同时故障的6868场景,测试冷板液冷系统分别在极端故障场景和故障恢复场景下,记录二次侧供液温度变化规律。8 8.2 2 冷冷板板液液冷冷服服务务器器适适配配性性验验证证冷板液冷服务器上架交付前,应关注冷板组件的设计参数与当前的液冷系统是否匹配,包括冷却液与冷板组件材料兼容性、冷板散热能力
96、匹配性、快速接头的型号规格匹配性等方面,宜在现有液冷基础设施条件下上满单机柜液冷服务器,并分项目进行适配性测试。测试内容如下表 8-1:表 8-1 冷板液冷服务器适配性测试69698 8.3 3 冷冷板板液液冷冷系系统统运运维维界界面面划划分分冷板式液冷系统通常有三种交付模式:1、IT 设备侧仅交付液冷服务器,其他由机房基础设施侧交付;2、IT 侧交付液冷服务器+液冷机柜,其他由机房基础设施侧交付;3、IT 侧交付液冷服务器+液冷机柜+CDU+二次侧管路。交付模式(1)为解耦交付,液冷机柜与液冷服务器之间遵循用户或行业统一制定的接口设计规范,机柜与服务器解耦,由不同厂家交付,基础设施和服务器厂
97、家需协调合作。解耦式交付易于规模化推广与灵活部署。交付模式(2)、(3)为一体化交付,整机柜由同一厂商集成化设计开发并交付,从而有利于后续运维界面的划分。根据不同的液冷系统交付模式,确定相应的运维界面,通过制定并执行 IT侧和机房侧的 SLA,共同保障液冷系统的安全稳定运行。同时,由于冷却工质进入服务器内部,IT 侧和机房侧在全生命周期运维中需联动(包括日常巡检、告警、应急和维护各场景)。8 8.4 4 冷冷板板液液冷冷系系统统的的运运行行与与维维护护目前大部分冷板液冷系统未能有类似于冷冻水风冷空调系统配置蓄冷罐一样的技术方案,当发生冷源侧故障时,由于热量的快速积累,末端服务器设备将在几分钟内
98、因超温而宕机。为确保冷板液冷系统的安全稳定运行,应确保一次侧、二次侧的冷却工质的不间断循环和服务器热量的连续排至室外。因此,液冷系统运维的重点在于如何避免以上故障的发生,以及如何做到故障发生时的及时发现和快速应急处理。设设备备的的不不间间断断运运行行1)液冷系统的关键设备(一次侧/二次侧循环水泵、CDU、风冷空调等)应配置不间断电源,运行时至少双机在线冗余。2)通过液冷系统关键设备的预防性维护,较早发现并闭环设备存在的缺陷。3)液冷系统关键设备的手自动切换控制应尽可能方便快速达到并操作,在自控逻辑失效的场景下运维人员能较快实现应急操作。4)液冷系统宜按照分布式系统设计,减小故障的影响范围。冷冷
99、却却工工质质的的品品控控70701)液冷服务器上架前确认其内部冷板组件的洁净度满足上架要求。2)CDU 设备的过流部件较多,预防性维护时应针对所有的过流部件的密封性和材料性能进行检查,针对已明确有材料劣化风险的部件立即安排更换。3)机房现场配置 RO 水处理设备,可随时提供足够的冷却工质补充。4)液冷系统应安排月度水质检测,及时发现并控制冷却工质的品质。5)水质不满足运维要求时,及时安排在线循环换水。二二次次侧侧循循环环管管路路的的补补液液1)CDU 自带补液系统液冷系统 CDU 水箱自带补水定压功能,非紧急情况下,可通过 CDU 自带补水管路及补水泵往水箱中补充纯水。2)外置补水小车配置补水
100、小车,补水小车自带水箱和水泵,通过 CDU 管路,直接注入 CDU水箱中完成补水,可实现 CDU 内补液与外补液同时补液。对外置补水小车的水质需定期进行更换与管理。3)快速补水液冷系统二次侧环网设置快速补水,当发生大量漏水事件,回水环网压力低于特定值时,可开启快速补水手阀,对二次侧环网进行大量补水。单单机机柜柜级级漏漏液液1)液冷服务器上架加电前,现场进行加气保压测试。2)液冷服务器漏液、高温等告警同步推送至机房侧运维人员。3)针对不同程度级别的漏液设置不同的处理方案,配置定制化的堵漏配件,减缓漏液程度,从而延迟停机维修计划,待业务合适时机再进行维修。4)针对较为严重的漏液时,通过快速就近接入
101、临时 manifold,完成故障机柜业务的快速恢复。7171第第九九章章、智智算算中中心心新新技技术术展展望望9 9.1 1 数数据据中中心心制制冷冷技技术术的的演演进进分分析析随着以人工智能为代表的新技术越来越广泛的应用,推动了全球多个领域对于高密机柜的需求。无论是基础设施厂家、服务器厂家还是云服务商,都在积极开发新的冷却技术来支持机柜内更高的发热量。下表 9-1 展示了随着机柜功率密度的增加,制冷技术的演进方向。图 9-1 制冷技术演进从上图的技术路径可以发现,随着机柜热密度的提升,制冷技术的发展路径是不断地靠近服务器从而降低热阻。近端风冷靠近热源,散热效率高于远端风冷,可以解决 50kW
102、 以内的热密度,但同时也带来能效低、噪音大等问题。因此,当热密度超过 30kW/R 时,建议优先考虑液冷方案。下图 9-2 是 OCP 对于 CPU&GPU 热阻的趋势研究,可以总结两点:GPU 是液冷技术迭代的主要驱动力;转型液冷之后,仍然需要不断地技术升级从而达到更低的热阻。7373图 9-2 热阻变化趋势在液冷方案中,两相液冷和混合液冷都是在单相液冷的基础上进一步降低热阻的有效方式,当前比较先进的液冷技术也都是以这两种为主。9 9.2 2 未未来来热热门门的的液液冷冷技技术术应应用用前前瞻瞻两两相相冷冷板板式式液液冷冷:前文已经简单介绍了两相冷板式液冷,根据制冷剂的驱动方式不同,有两种技
103、术路线:被动两相式和泵驱两相式。被被动动两两相相式式:被动两相式冷板液冷技术无需机械泵或外部电源来驱动工作流体循环,而是一种依靠重力驱动的闭式热虹吸管路系统。该系统的原理是:闭合回路中,工作流体在低处(蒸发器内)部分蒸发。通过浮力,两相混合物从升管到达高处的冷凝器。在冷凝器中冷却后,再次变成液体,最后通过降管进入蒸发器。由于升管中两相混合物的密度低于降管中液体的密度,因此依靠重力即可维持工作流体的流动,而无需机械驱动装置。原理图如下图 9-3:7474图 9-3 被动两相式原理图该技术在高功率服务器机柜中的应用,见图 9-4:图 9-4 被动两相式在液冷机柜中的应用7575实际应用中该系统需要
104、多级热虹吸管配合,即服务器级的热虹吸管将热量传递给机架级的热虹吸管,最后由水冷冷凝器将热量传递到室外。该技术的优点是无需动力部件,散热效率高,温度均匀性好,且封闭系统不担心泄漏,多应用在航天领域。目前在数据中心的应用还不成熟,案例比较少。泵泵驱驱两两相相式式:泵驱两相系统的工作流体循环需要依靠泵来完成。它的原理是:过冷液体(制冷剂)被泵送至冷板中,部分液体被转化为蒸汽,然后被泵送至冷凝器(CDU 的热交换器)进行冷却,完全转化回液体并重新被泵送至冷板,然后重复该循环。原理图如下图 9-5:图 9-5 泵驱两相式原理图下图 9-6 是维谛技术(Vertiv)与 Intel 合作开发的泵驱两相系统
105、图:右侧为Vertiv 的泵驱两相 CDU,左侧为 Intel 的四个机柜。7676图 9-6 泵驱两相式实物图泵驱两相的换热能力强于泵驱单相,因此被应用在热密度更高的场景中,这套泵驱两相(P2P)系统可以消除高达 160kW 的总热量,其中芯片的功率为 1000W,一次侧水温范围为 17-45。这套架构采用的是第三章所述的液冷架构和,即机械冷源或自然冷源+机柜式 R2L 型 CDU+两相冷板。这两种架构也对应芯片功率的发展趋势。如前文所述,更高芯片功率需要匹配更低的冷却液温度。因此,泵驱两相系统的冷源未来会更多的使用冷水机组。两种技术相比,泵驱两相系统成熟且灵活,限制因素少,更加适合大规模部
106、署。混混合合液液冷冷:混合液冷是将冷板式和浸没式液冷融合在一起,充分利用各自的优点,组成一套系统来解决更高热密度的服务器散热问题。该技术目前有两条技术路线:单相浸没+两相冷板和单相浸没+单相冷板。单单相相浸浸没没+两两相相冷冷板板:该混合液冷方案由NVIDIA 团队构建,以应对未来GPU芯片更高的散热需求。作为先进的液体冷却系统,得到了美国能源部 COOLERCHIPS 计划 500 万美元的7777拨款支持。NVIDIA 的混合液冷结合了芯片的两相冷板冷却和其余组件的单相浸没冷却。据 NVIDIA 介绍,该系统有如下优点:1、服务器机架功率高达 200kW,是目前的 25 倍;2、与风冷相比
107、,成本至少降低 5%;3、与风冷相比,冷却效率提高 20%;4、运行更安静,更低碳。该系统原理图如下图 9-7:图 9-7 混合液冷原理图下图 9-8 是 NVIDIA 官方博客发布的图片:7878图 9-8 NV 混合式液冷该系统目前还处于开发阶段,只有相关的概念,但该技术是 NVIDIA 提出,因此有众多厂家跟进。单单相相浸浸没没+单单相相冷冷板板:该方案由法国云服务商 OVHcloud 提出,并已有小规模的项目落地。它同样也获得了 COOLERCHIPS 计划 284 万美元的资助。相比于 NVIDIA 的方案,它将两相冷板改为单相冷板,虽然散热能力会有所降低,但技术上更加简单。它的原理
108、是:向密封的刀片服务器中注入冷却液,给芯片以外的 IT 组件提供浸没式冷却;并通过服务器中的冷板给芯片散热;冷板和换热铜管冷采用串联的形式。原理图如下图 9-9:7979图 9-9 混合液冷原理图系统中的冷却水先进入冷板中给芯片散热,冷却水的温度升高,从冷板出来后直接进入到换热铜管中,通过换热铜管给冷却液降温,从而为其他 IT 组件散热。冷却液并不采用强制对流换热,而是采用自然对流换热的方式将热量传递给换热铜管中的冷却水。下图 9-10 是使用该混合液冷技术的服务器和机柜实物图:该机柜共安装 48个服务器,功率48kW。图 9-10 混合液冷实物图8080模模块块化化 CDU:模块化 CDU
109、的设计由德国基础设施供应商 Rittal 提出并在多个项目中落地。这种全新的设计为 CDU 的开发提供了两条思路:CDU 可兼容 ORV3 标准机柜,内部的器件模块化设计。按照这种设计理念,Rittal 的模块化 CDU 以 ORV3 机架为基础,所有的模块都可以直接安装在标准的ORV3机架内;泵模块采用分布式小颗粒度的N+1设计,高可用性,并且可以按需开启;所有模块支持热插拔,并采用 DC48V 供电。机柜的实物照片及布局如下图 9-11:图 9-11 模块化 CDU 实物图该 CDU 的泵模块采用 4+1 冗余配置,每个模块支持热插拔,可以不停机维护,并且与服务器一样采用 DC48V 供电
110、。运行时按需开启,原理图如下图 9-12:8181图 9-12 模块化 CDU 原理图负负压压 CDU在冷板式液冷的实际应用中,泄漏一直是无法回避的技术痛点。为了从根本上解决泄漏问题,Schneider、Chilldyne、Aqua 等厂家开发了负压 CDU。负压CDU技术的核心在于通过设计使得液冷系统二次侧的压力低于大气压,冷却液在负压下循环。当回路中的任何部分出现漏点,空气就会被吸入其中,而冷却液不会从管路中泄漏。下图 9-13 是将运行中的管路剪断后的效果,可以发现并没有冷却液从管中流出。图 9-13 负压 CDU 剪断管路效果图8282下图 9-14 是负压 CDU 的原理图:图 9-
111、14 负压 CDU 原理图负压 CDU 的设计中,需要两组泵,一组为潜水泵,只负责将高温冷却液从储存室送入换热器中降温,降温后的冷却液再返回储存室,不参与低温冷却液在二次侧的循环。另一组为真空泵,负责制造二次侧管路中的真空环境,从而使冷却液在服务器及各腔体中流动。具体过程如下:第一阶段,真空泵对主室抽真空,主室压力低于储存室,冷却液从储存室进入服务器然后回到主室。第二阶段,当主室快充满时,真空泵对辅助室抽真空,并将主室的冷却液排入储存室。此时辅助室压力低于储存室,冷却液从储存室进入服务器然后回到辅助室。第三阶段,当辅助腔室快充满时,循环重复前两个阶段。通过交替对主室和辅助室抽真空,二次侧可产生
112、稳定的流动,冷却液从储存室流出,流经服务器,然后流回 CDU。负压 CDU 的优势在于出现漏电时系统仍可以安全运行,极大地提升了系统的可靠性。对于中小型数据中心,尤其是对系统的可靠性有严格要求的数据中心非常适用。83838383第第十十章章、总总结结以上九章是本白皮书主要的内容。小结一下:本白皮书从智算产业的发展,由 IT 侧的技术变革推导出智算中心未来在基础设施侧面对的新需求与挑战。进而以液冷技术为主要研究对象,以亚太地区智算中心的应用为目标,进行了算力中心液冷从设计到落地的全过程方案的设计。在本白皮书的第二章,介绍了亚太地区的气候特征以及数据中心的散热特征。第三章,介绍了智算中心液冷的通用
113、架构:热捕获、热交换(CDU)和冷源。根据主流技术路线将液冷架构梳理成 8 种架构:在此分类的基础上根据场景的边界条件给出了这 8 种液冷架构适合的业务场景:8585液冷架构在智算中心部署时不能单独存在,而是与风冷系统混合使用,相辅相成。因此,在本白皮书的四到六章,对不同的风冷混合架构的部署进行了分析。并从使用者角度出发,对智算中心落地液冷时需考虑的边界条件,如:环境、建筑特征、业务特性、运营目标(Capex、Opex、TCO、PUE、WUE 等)、以及可维护性、方案成熟、能源可持续性(如余热回收)等方面,给出了选定合作制冷架构的方法如下:第一步、先罗列出所有的已知条件,然后根据这些条件分别对
114、每个部分进行选型,最后将这些部分组合起来,对照第三章架构表中的-,就可以得到最合适的液冷架构。第二步、根据业务类型,确定风液同源或独立架构,然后选择合适的风冷方案与之配合。从第六章到第九章,白皮书对智算中心液冷建设的预制化趋势、传统数据中心的液冷改造、液冷系统的运维和液冷技术未来的演进逐一做了详细的阐述,对液冷系统在智算中心的落地方法和未来方向给予了建议。希望通过本白皮书的阐述,能为读者提供一套智算中心落地液冷方案的参考,帮助更多的智算中心顺利进入液冷时代。8686附附:名名词词解解释释1.CPU(Cent ral Processing Unit):中央处理器,是计算机的主要处理单元,负责执行
115、程序指令、处理数据和控制计算机的其他硬件部件。2.GPU(Graphics Processing Unit):图形处理单元,用于大规模并行计算,如图形渲染、科学计算、深度学习等。3.NPU(Neural Processing Unit):神经网络处理单元,专门设计用于加速机器学习任务,尤其是深度学习算法。4.TPU(Tensor Processing Unit):张量处理单元,由 G oogle 开发,专门用于术、市场领导地位、性能优势、软件和硬件的紧密结合以及行业合作与支持等方面具有综合优势。6.TDP(Thermal Design Power):热设计功耗,最初是由 Intel 在 Pen
116、tium Pr加速 Tensor Flow 框架下的机器学习工作负载,执行 TensorFlow 模型的训练和推理。5.英英伟伟达达(NVIDIA):是全球领先的图形处理器(GPU)制造商,其在 GPU 技o系列中引入,是指芯片或组件在正常运行状态下所产生的最大热量。7.PUE(Power Usage Effectiveness):电能利用效率,是评价数据中心能源利用效率的指标。PUE 计算公式为:PUE=Pt/PIT,其中 Pt 为数据中心全年总耗电量,单位是 KWh;PIT 为数据中心的 IT 设备全年耗电量,单位也是 KWh,因此,PUE 是一个大于 1 的数值,PUE 值越低,说明数据
117、中心用于 IT 设备以外的能耗越低,越节能。8.WUE(Water Use Efficiency):水资源利用效率,是衡量数据中心水资源利用效率的重要指标。WUE 计算公式是:数据中心水资源的全年消耗量/数据中心 IT 设备全年耗电量。因此,WUE 数值越小,表示数据中心的水资源利用效率越高。9.热热捕捕获获(Heat capture):是指使用液体从 IT 组件中带走热量。根据热捕获的方式不同,液冷可以分为:冷板式液冷、浸没式液冷、喷淋式液冷。10.冷冷板板式式液液冷冷:液冷技术之一,也称非接触式液冷,是指冷却液不与 IT 发热元件直接接触,而是通过冷却液流过安装在发热元件上的冷板(通常为铜
118、铝等导热金属构成的封闭腔体)将热量带走。11.浸浸没没式式液液冷冷:液冷技术之一,也称为接触式液冷,是将 IT 发热元件完全浸没在冷却液中,通过冷却液的循环流动将热量带走。878712.CDU(Coolant Distribution Unit):冷量分配单元,是一种用于调节和分配冷却液的设备,CDU 一般由热交换模块、泵模块、过滤模块、补液模块、监测模块、控制模块等组成。8888版版权权声声明明本白皮书版权属于中国电信国际有限公司,并受法律保护。凡是需要转载、摘编或利用其它方式使用本白皮书成果中的文字或者观点的,均需要预先获得中国电信国际有限公司的书面许可,并注明来源:“亚太区智算中心液冷应用现状与技术演进白皮书”。如需获取许可,请致信 。未经书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,将追究其法律责任。89898989