书签 分享 收藏 举报 版权申诉 / 43

类型长城超云:东数西算数据中心基础架构设计方案白皮书(2022)(43页).pdf

  • 上传人:柒柒
  • 文档编号:107303
  • 上传时间:2022-11-24
  • 格式:PDF
  • 页数:43
  • 大小:1.36MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    长城 东数西 算数 中心 基础 架构 设计方案 白皮书 2022 43
    资源描述:

    1、 东数西算数据中心基础架构设计方案白皮书 长城超云(北京)科技有限公司 目录目录 一、一、东数西算的背景东数西算的背景.3(一一)政策背景政策背景.3 1.核心战略核心战略.3 2.东数西算和国家热点战略关系解读东数西算和国家热点战略关系解读.4 3.一张图解读政策之间的关系一张图解读政策之间的关系.7 4.典型枢纽和节点布局典型枢纽和节点布局.7(二二)投资背景投资背景.9 1 政府投资政府投资.9 2 民间投资民间投资.10(三三)业务背景业务背景.11 1.东数西算业务需求东数西算业务需求.11 2.业务承载能力需求业务承载能力需求.13 3.业务上线效率的需求业务上线效率的需求.13

    2、4.能效水平需求能效水平需求.15(四四)技术背景技术背景.16 1.云边协同发展趋势云边协同发展趋势.16 2.算力芯片发展趋势算力芯片发展趋势.16 3.存储介质发展趋势存储介质发展趋势.18 4.节能减排技术发展趋势节能减排技术发展趋势.19 二、二、从从 0 到到 1 基础设施建设模式基础设施建设模式.21(一一)基于微模块建设方式基于微模块建设方式.21 1.数据中心建设数据中心建设.21 2.简易算力部署简易算力部署.22 3.边缘计算节点边缘计算节点.22(二二)基于整机柜交付方式基于整机柜交付方式.23 1.厂内预制、快速交付厂内预制、快速交付.23(三三)基于液冷建设交付方式

    3、基于液冷建设交付方式.24 1.数据中心液冷技术数据中心液冷技术.24 2.冷板式液冷冷板式液冷.25 3.浸没式液冷浸没式液冷.26 三、三、算力部署及数据处理模式算力部署及数据处理模式.27(一一)计算计算.27 1.Intel 架构典型服务器架构典型服务器.28 2.AMD 架构典型服务器架构典型服务器.29(二二)AIAI.30 1.GPU 典型服务器典型服务器.30 2.ASIC 典型服务器典型服务器.32 3.FPGA 典型服务器典型服务器.33(三三)存储存储.33 1.海量存储服务器海量存储服务器.34 2.紧凑型存储服务器紧凑型存储服务器.35 3.全闪存储服务器全闪存储服务

    4、器.35 四、四、集群管理及应用模式集群管理及应用模式.36 五、五、系统运行维护模式系统运行维护模式.39 六、六、结论结论.40 七、关于超云关于超云.41 八、参考文献引用备注.42 一、一、东数西算的背景东数西算的背景(一一)政策背景政策背景 1.核心战略核心战略 双碳:2020 年 9 月 22 日,中国在第 75 届联合国大会上正式提出 2030 年实现碳达峰、2060 年实现碳中和的目标。2030 年之前,二氧化碳排放量不再增加,达到峰值后再缓慢减少。到 2060 年,所有的二氧化碳排放将通过植树、节能减排来抵消。数字经济:2022 年 1 月 12 日,国务院正式印发“十四五”

    5、数字经济发展规划,明确了“十四五”时期推动数字经济健康发展的指导思想、基本原则、发展目标、重点任务和保障措施。东数西算:2022 年 2 月 17 日,国家发展改革委、中央网信办、工业和信息化部、国家能源局近日联合印发文件,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏启动建设国家算力枢纽节点,并规划了张家口集群等 10 个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。统一大市场:2022 年 3 月 25 日,中共中央国务院出台关于加快建设全国统一大市场的意见,坚持创新驱动发展,推动高质量发展,坚持以供给侧结构性改革为主线

    6、,加快建设高效规范、公平竞争、充分开放的全国统一大市场。2.东数西算和国家热点战略关系解读东数西算和国家热点战略关系解读 什么是东数西算什么是东数西算。东数西算的“数”是指数据,“算”指算力,即对数据的处理能力,是数字时代的核心生产力。“东数西算”通过在中西部建设包含数据中心、云计算、大数据等一体化的新型算力网络体系,将东部海量的数据有序引导至西部进行计算,促进东西部协同联动,效率优化。“东数西算”工程是我国继“南水北调”、“西电东送”、“西气东输”等工程之后,面向全国资源分布、经济发展实际,进行的全局统筹、协同优化的又一个历史性大工程。东数西算与数字经济的关系:东数西算是数字经济发展的坚实底

    7、座。东数西算与数字经济的关系:东数西算是数字经济发展的坚实底座。当前,我国数字经济蓬勃发展,各行业数字化转型升级进度逐步加快,全社会数据总量爆发式增长,数据资源存储、计算和应用需求大幅提升,但我国数据中心发展模式仍显粗放,东西布局失衡、算力配置分散、数据流通遇阻等问题凸显,在一定程度上掣肘数字经济发展速度。习近平重要文章 不断做强做优做大我国数字经济中指出,要加强关键核心技术攻关,规范数字经济发展,完善数字经济治理体系,加快新型基础设施建设,推动数字经济实体经济融合发展,这五大领域发展数字经济,各领域相辅相成,协同发展。例如:1)通过高质量建设新型基础设施,不断加强 ICT 核心技术攻关 2)

    8、通过东部数据经济发展带动西部实体经济发展和数字经济建设 3)通过打通优化东西数据网络,扩大数字发展格局,不断完善全国数据治理体系“东数西算”工程的问世,着眼于数字经济建设多个核心领域,通过科学合理的顶层设计,引导东部数据中心集约化发展、西部数据中心跨越式发展,统筹调度东西部数据中心算力需求与供给,实现全国算力、网络、数据、能源等协同联动,为我国数字产业化和产业数字化发展打好坚实底座(注 1)。东数西算与双碳战略的关系东数西算与双碳战略的关系:东数西算是双碳战略的重要抓手东数西算是双碳战略的重要抓手。气候变化是人类面临的全球性问题,随着各国二氧化碳排放,温室气体猛增,对生命系统形成威胁。与此同时

    9、,我国社会也进入了新的发展阶段,无论是来自世界外部的发展趋势还是自身发展的需求,使得中国的经济发展从追求速度与效率的方式转向生态文明建设,走绿色低碳可持续的道路。在这样的时代背景下,我国对双碳目标的承诺,标志着中国对促进经济高质量发展,社会繁荣和全球生态环境保护的决心(注 2)。数据中心耗电量逐年升高,据国家能源局数据显示,2020 年我国数据中心耗电量已逾2000亿千瓦时,约占全社会用电量2,电能利用率(PUE)高达1.49;二氧化碳排放量约 1.35 亿吨,约占全国二氧化碳排放量的 1.14%。结合数据中心规模增长趋势,可以判定,数据中心将成为未来为数不多能源消耗占社会总用电量和碳排放量比

    10、例持续增长的行业,给全社会能源供应和环保带来了巨大压力。“东数西算”工程聚焦创新节能,在集约化、规模化、绿色化方面着重发力,支持高效供配电技术、制冷技术、节能协同技术研发和应用,鼓励自发自用、微网直供、本地储能等手段提高可再生能源使用率,降低数据中心电能利用率(PUE),引导其向清洁低碳、循环利用方向发展,已经成为数据中心与绿色低碳产业深度融合,建设绿色制造体系和服务体系的重要抓手工程,助力我国在 2060 年前实现碳中和目标。东数西算与统一大市场的关系:东数西算与统一大市场的关系:东数西算构建东西重要数据走廊,打通市场东数西算构建东西重要数据走廊,打通市场堵点堵点。我国目前处于第二个百年奋斗

    11、目标新发展阶段,同时世界正处于百年未有之大变局和疫情常态化局势叠加,面对国际复杂局势,稳经济首先要稳内需,加快建设全国统一大市场出台,其工作原则指出:立足内需,畅通循环;立破并举,完善制度,对我国市场格局有以下作用:1)强化我国国内市场基本盘 2)促进我国国内大循环以及国际国内双循环 3)影响全球要素资源向我国聚拢 随着数字技术全方位融入经济生活,数字经济成为驱动我国经济社会发展的新引擎,商贸流通的数字化建设则是必然趋势。现代商贸的流通是物流+数据的流通,借助东数西算工程构建的数据走廊,可以助力西部地区加快数字基建,打通商贸流通堵点、打破区域界限和市场分割,降低产销对接、城乡联通、内外连接等交

    12、易成本,有效解决各区域、各行业信息不对称、不透明等问题,提高市场效率、提升服务质量、扩大市场利润(注 3)。3.一张一张图解读图解读政策政策之间的关系之间的关系 图 1:全国资源分布与输送示意图 4.典型枢纽和节点布局典型枢纽和节点布局 东数西算布局如下图所示,京津冀枢纽、长三角枢纽、粤港澳枢纽、成渝枢纽、内蒙古枢纽、贵州枢纽、甘肃枢纽、宁夏枢纽为 8 大国家枢纽节点,此外,国家还规划了 10 个国家数据中心集群,包括张家口集群、芜湖集群、长三角生态绿色一体化发展示范区集群、韶关集群、天府集群、重庆集群、林格尔集群、贵安集群、庆阳集群和中卫集群,以此构建全国新型算力网络体系。图 2:全国一体化

    13、算力网络国家枢纽节点布局图 八大节点在“东数西算”工程中所发挥的作用各不相同。贵州、内蒙古、甘肃、宁夏这四个节点要打造面向全国的非实时性算力保障基地,定位于不断提升算力服务品质和利用效率,充分发挥其资源优势,夯实网络等基础保障,积极承接全国范围的后台加工、离线分析、存储备份等非实时算力需求。京津冀、长三角、粤港澳大湾区、成渝四个节点要服务于重大区域发展战略实施需要,定位于进一步统筹好城市内部和周边区域的数据中心布局,实现大规模算力部署与土地、用能、水、电等资源的协调可持续,优化数据中心供给结构,扩展算力增长空间(注 4)。(二二)投资背景投资背景 “东数西算”是掀起数据中心产业链投资热潮的新动

    14、能。数据中心的产业链条较长、覆盖门类较广,包括土建工程、信息通信基础软件、IT 设备制造和绿色能源供给等。虽然数据中心的预期收益较高,但前期建设需要大量的资金。在政策引导和行业需求的驱动下,“东数西算”工程实施落地,可以吸引大量投资,继而为数据中心产业链建设提供必备的资金。根据国家发改委预测,“东数西算”数据中心的建设将吸引超过 4000 亿元的社会投资。“东数西算”工程预计未来 5 年或将带动每年千亿元的投资,对相关产业拉动作用突出。据2020 全球计算力指数评估报告显示:计算力指数平均每提高 1 个百分点,数字经济和 GDP 将分别增长 3.3和 1.8。可以预见,围绕“东数西算”投入的资

    15、金、人才、技术,将为我国数字经济发展注入源源不断的新动能。1政府投资政府投资 地方政府根据招商引资政策,对兴建数据中心、产业园区等项目给予政策奖励,或直接参与或间接参与进行投资。其中政企合作是政府投资的普遍选择,政企合作是指企业与选址地政府合作,通常可享有一定优惠扶持。政府能够分担投资风险,降低融资难度,也能够协调多方利益主体的一致合作,形成社会效益最大化。同时政府部门通常会在土地、电力、能耗方面给予合作的第三方数据中心运营商一定倾斜和优惠,第三方数据中心运营商则主要负责数据中心的投资、建设和运维,促进当地政府部门、企业数据上云,并需要在招商引资、纳税、增加 就业、人才引进方面为当地做出贡献,

    16、拉动当地数字产业和数字经济发展,形成双赢局面。2民间投资民间投资 民间投资往往以第三方数据中心为主要投资方式,第三方数据中心运营商占据我国数据中心市场半壁江山,且份额每年都有所上升。源于早期数据中心建设资源和网络资源积累的优势,当前我国数据中心市场格局仍由三大基础电信运营商主导,众多第三方数据中心运营商加速追赶,共同构成我国数据中心主体格局。从 2020 年数据中心业务市场收入占比来看,基础电信运营商约占总市场规模的 54.3%,其中中国电信市场规模约占 23.8%、中国联通约占 16.7%、中国移动约占 13.8%。第三方数据中心运营商市场规模占比为 45.7%,对比 2019 年的 40.

    17、7%,市场收入占比有明显提升(注 5)。图 3::基础电信运营商及第三方数据中心运营商数据中心业务收入分布(三三)业务背景业务背景 1.东数西算业务需求东数西算业务需求 离线数据处理场景离线数据处理场景。企业中有非常多需要离线分析的数据,例如,软件系统中的日志分析、每日每月报表分析、用户图片,视频算法分析等,采用大数据软件进行离线数据分析,这些数据和分析产生的结果对时效性要求并不是很高,因此西部价格便宜的算力优势足以低过数据传输带来的成本。AIAI 训训练练、视频、视频渲渲染、超算场景染、超算场景。AI 平台提供训练往往需要专门的算力设备,同时可以基于线下数据进行线下训练,因此用户可选择在西部

    18、数据中心中运行算 力密集度高的AI模型训练任务,训练出的模型再同步至东部数据中心的镜像Hub中并用于推理服务。视频渲染也是类似特性的算力密集型任务,将需要渲染的数据存储至西部数据中心,充分利用计算资源充足和价格优势完成视频渲染后,再将最终视频推流至用户端。同时东部地区还可采用边缘计算节点来缓存加速视频文件和相关数据,实现就近访问。同样对于科研计算中的流体力学、物理化学、生物信息等高性能超算场景,也适合在西部地区数据中心中进行计算。物理托管和混合云场景物理托管和混合云场景。在企业上云过程中并不是把所有业务和数据全部迁移至云平台,因为企业 IT 历史原因和客观条件约束,有一部分服务器必须采用物理部

    19、署的形式。这样,企业就可选择在企业本地物理服务器集群和公有云之间构建混合架构,也可以选择将物理服务器集群托管至云平台。随着网络时延的逐步改善,以及西部数据中心的建设和配套服务的完善,让需要有服务器托管的中西部用户,甚至一些东部客户有了更多选择。数据归档场景。数据归档场景。如目前火爆的直播带货行业每天会产生大量的视频数据,根据直播带货视频合规要求,相关视频要至少保存三年;医院医疗影像、医疗诊断记录也要根据合规要求进行长时间保存。存储这些数据一方面对容量需求巨大,另外一方面有很少的读取需求,越便宜越好。这些就是我们说的冷数据,因此将冷数据存储至西部数据中心中的廉价存储介质中,比如说大容量的机械硬盘

    20、,甚至是带库,是非常好的选择。两地三中心灾备场景两地三中心灾备场景。政府和大型企业构建大型数据中心,根据政策法规要求,都会考虑灾备场景,随着两地三中心模式的普及,异地灾备成为政府和大型 企业的广泛要求,以前中西部地区因为东部数据中心配套的网络建设、运维服务、方案成熟度相对更高,往往会把灾备中心建设在东部,这就面临着越来越有限的扩展空间和昂贵的成本。随着西部数据中心的不断成熟,中西部甚至东部客户,可以根据自身地理位置情况,将主副中心或者灾备中心建立在离自身距离较为合适的西部地区(注 6)。2.业务承载能力需求业务承载能力需求 依据地域不同,东数西算数据中心业务承载也呈现不同特点,需要截然不依据地

    21、域不同,东数西算数据中心业务承载也呈现不同特点,需要截然不同的硬件基础架构支撑同的硬件基础架构支撑。对于占据数据量 80%的温冷数据而言,规模化的应用需要海量的数据处理与存储需求,此时集聚性的数据中心能够显著降低数据中心建设和使用成本,数据中心内部大多数业务对于网络实时性要求不高,却需要更多的异构算力融合及云网融合,来加强数据流通与数据处理能力。部分业务如人工智能训练,超算中心等,更是需要发挥集群的算力优势,组建并行集群。数据利用率极高的业务,则是对于网络实时性提出了更高的要求,需要在本地化数据中心或边缘环境下部署,作为数据中心云在用户侧的延伸和触角,满足更广连接、更低时延、更优控制的需求。数

    22、据中心需要在边缘端提供更密集的网络算力,更灵活的部署方式。3.业务上线效率的需求业务上线效率的需求 随着“东数西算”工程和企业数字化转型进程的不断推进,数字技术逐渐渗随着“东数西算”工程和企业数字化转型进程的不断推进,数字技术逐渐渗透到各行业业务的方方面面透到各行业业务的方方面面。当下,在数字化的过程中,越来越追求业务部署的 速度,这就对作为产业数字化底座的数据中心提出了更高的要求,通常会尽可能的要求生产力逐步提升、生产效率不断提高,从而迅速扩大企业的业务范围和影响力;相反,数据中心的运营成本、建设周期要尽量降低和缩短。因此,数据中心的建设和交付成为提升业务上线效率的关键环节之一。数据中心采用

    23、传统“建设模式”会是一项复杂的系统工程,涉及数据中心选址、建筑方案设计、风火水电等基础设施建设、IT 设备部署调试、运维管理、队伍建设等一系列工作,不仅在建设期需要投入大量的人力、物力和财力,而且在建成后还要持续投入大量的运营管理资金和人员。传统的建设模式,建成后数据中心可扩展性差,基于对未来业务需求的分析,规划系统容量,却无力预见 3 至4 年以后的情形,因此造成了建设不足或过度建设。从而影响用户及 IDC 服务商双方的业务发展。这种规划方式需要将设备部署与建设设计的功能区域划分做强耦合,方案设计复杂,施工过程难度大、周期长,不具备良好的扩容能力;显然这种工程建设方式已经不适应数据中心响应数

    24、字时代转型,生产能力飞速提升的需要。需要将数据中心的设备层与建筑层做分离,将建筑设计简化为标准空间,而设备层不依赖于建筑物区域和空间的划分,自成标准,结合优势技术不断迭代升级的同时,又能满足任何时期增量部署的要求。数据中心的“交付模式”主要实现的是在基础设施设备和 IT 设备层面进行耦合,做到去工程化、全面预制化的水平;可以理解为将建设现场的安装部署、调试等工作交由工厂预先完成,将各层“先实施、后集成”的建设方式升级为“先验证、后生产”的先验一体化交付模式;“交付模式”可以不受场地条件的限制,类似于虚拟化技术可以突破硬件设备限制,将灵活、快速提升生产力作为首要目标,不断地进行技术迭代,缩短数据

    25、中心基础设施设备和 IT 设备的实施周期,从而实现快速交付的能力。完美匹配数据中心响应企业“数字化转型”的要求。4.能效水平需求能效水平需求 根据东西部枢纽节点地理位置、功能、定位等不同的特点,“东数西算”工程注重高算快存的同时也对东西部枢纽节点分别提出不同能效水平要求。根据“东数西算”的文件要求,对自然环境优越,可再生资源充足的西部枢纽要求数据中心能耗水平 PUE 达到 1.2 以下,对东部枢纽地区数据中心能耗水平 PUE 要求达到 1.25 以下。东数西算工程将东部算力有序引导至西部,但例如工业互联网、视频编辑、自动驾驶等仍需东部边缘算力支撑,增大算力能效水平对于东西部业务部署都至关重要。

    26、扩大数据处理量,加快计算速率,影响其主要因素一是设备,二是电力,因此提高数据中心建设密度成为提高算力水平的重要举措,这就需要在节能的前提下提高单柜功率密度。要达到当前所要求的能效水平,则不能仅依赖于传统数据中心建设模式,需要在集约化、规模化、绿色化方面着重发力。(四四)技术背景技术背景 1.云边协同发展趋势云边协同发展趋势 在东数西算大背景下,5G、物联网等技术飞速发展,企业数字化转型进程加快,高带宽、低延时、数据安全的要求越发强烈,带动边缘计算需求激增,云边协同成为未来技术重要演进方向,驱动数据处理向边缘扩散,云边端一体化算力形态将更好地满足各行各业创新需求。2.算力芯片发展趋势算力芯片发展

    27、趋势 CPU 作为数据中心算力的基石,目前呈现出一超多强的市场格局,x86 架构市场Intel牢牢占据霸主地位,AMD作为后起新秀2021年最新市场份额超过7%,ARM 架构也呈现了群雄割据之势,尤其在信创趋势下,各个芯片厂商围绕着芯片制程、核心主频、TDP 及封装方式不断进行更新迭代。制程工艺与核心数量制程工艺与核心数量。以 Intel 为例,至强 Ice Lake CPU 已升级至 10nm,单颗最多支持 40 个物理核心;在 2021 年 7 月 Intel 公布的芯片制程工艺路线图显示,新一代可扩展处理器将采用更先进的制程,单颗核心数预计将达到 56核以上,AMD 与 ARM 从技术路

    28、线来说,制程工艺更加先进,核数更多。模块化与模块化与 ChipletChiplet 设计设计。CPU 作为精密的半导体部件,为提高良品率,厂商通常将一个 CPU 拆分成多个较小的晶片(Die)分别生产、再进行互联、封装。以 AMD 服务器 CPU 为例,一代 EPYC 最多能提供 32 核心,最大的变化是采用了多 芯片模块架构(MCU),包括了四个对等的 Die 组成,单 Die 最多提供 8 个物理核心及 Cache,在二代和三代 EPYC 则对多 die 互联架构持续优化,形成了 8 个CCD 围绕一个 IOD 的 Chiplet 设计(如下图)。图 4:模块化与 Chiplet 设计示意

    29、图 CPUCPU 功耗逐步接近风冷极限功耗逐步接近风冷极限。目前最新在售的 Intel 和 AMD 处理器 TDP 单颗最高分别为 270W 和 280W,下一代 CPU 预计将逼近 400W,对于传统的风冷散热带来严峻挑战,促进液冷技术的创新和落地。AIAI 算力算力。在算力多样化的新型数据中心建设中,AI 算力与通用算力同样重要,AI 芯片算力将承担更多的算力任务,向着更高算力、更先进制程、更多核 心、更安全和更智能的方向发展。以 NVIDIA 最新发布的 Hopper 架构的 H100 为例,单张 GPU 的晶体管数量达到了恐怖的 800 亿个,制程工艺也提升至台积电4nm,18432

    30、个 CUDA 核心,支持 PCI-E 5.0、NV Link 第四代,后者带宽提升至900GB/s,七倍于 PCI-E 5.0。相比于 A100 在智能化和安全性方面也对 MIG 技术进行了升级,支持机密计算和全新的 DPX 指令。网络算力网络算力。在计算模型复杂化、算力要求提升的趋势下,GPU 的出现减轻了CPU 的计算负担,而算力要求提升的背景下是数据量、数据类型的增多,为了进一步提升计算系统的数据处理与调度能力,DPU 应运而生。主要处理网络 IO 和减轻 CPU 对数据处理的负载,释放更多的 CPU 算力,将数据集中处理和调度,不仅能够缩短数据经过的路径、减轻 CPU 负担,还将以计算

    31、中心的网络数据处理改变为以数据为中心,提高了整体数据中心的数据处理效能。3.存储介质发展趋势存储介质发展趋势 东数西算对海量数据的需求和运用更广泛。来自中商产业研究院发布的数据显示,中国 83.7%的数据集中在“胡焕庸线”以东,为此需要通过“东数西算”工程来改善数字基建不平衡的布局,对海量数据进行合理、优化的调度、存储与处理,发挥数据资产对行业数字化的更大价值。HDDHDD 的发展趋势:的发展趋势:在总体数据类型中,温冷数据的占比依旧是最大的,HDD机械盘凭借单 T 成本优势仍然是温冷数据存储的首选,随着数据爆炸式的增加,如何突破 HDD 容量增长瓶颈及实现容量与性能的均衡提升是目前机械介质技

    32、术发展所面临的核心挑战。1)容量提升:通过热辅助磁记录相关技术实现了单盘 20T+的容量突破;2)性能提升:通过双驱动臂技术(以希捷 Mach.2 为例)实现了在容量点不变的情况下性能加倍;3)TCO 降低:通过氦气填充、SMR 技术大幅提高单盘容量的同时降低总体TCO;SSDSSD 的发展趋势:的发展趋势:SSD 的 NAND“楼层”越来越高,目前,主流的企业级 SSD均采用了最新的 3D NAND 技术,64-176 层芯片成为主流产品。2022 年上半年三星宣布推出 176 层 NAND,预计最快在 2022 年底发布 200 层及以上堆叠技术的 NAND 芯片,单 T 的 SSD 成本

    33、也逐步降低。4.节能减排技术发展趋势节能减排技术发展趋势 东数西算将从源头上推动数据中心持续提高能效、碳效水平,强化全生命周期的节能管理。在全国各地对节能审查,政策扶持等方面做出明确规定,政策限制高 PUE 值 IDC 入场。供电技术。供电技术。发展清洁能源为数据中心供电:直接部署清洁能源采用太阳能、风能、水能等清洁能源发电为数据中心供电。储能技术包含储热、储氢、储电多种方式,由于不同技术适用的场景不同(包括能量和功率),其中储电技术应用 最为广泛,又可分为物理储电和化学储电。储能技术的发展与利用,弥补了太阳能、风能等间歇能源的不足。数据中心数据中心 UPSUPS 使用高频机替换工频机使用高频

    34、机替换工频机。对于工频机,发电机的容量至少要 3倍于 UPS 功率;对于高频机,输入功率因数可做到 0.99 或以上,谐波电流小于5%,前置发电机的容量理论上和 UPS 功率相同,大大缩减了投资和占地面积等。高压直流(高压直流(HVDCHVDC)代替)代替 UPSUPS。相较于 UPS,HVDC 在备份、工作原理、扩容以及蓄电池挂靠等方面存在显著的技术优势,因而具有运行效率高、占地面积少、投资成本和运营成本低的特点。降压和整流合二为一降压和整流合二为一。随着数据中心建设规模的变大,电力容量需求也越来越大。需要提高供电的电压等级来满足容量需求。这时我们需要通过降压变压器将中高压电源降压到 AC

    35、380V,再由 HVDC 为服务器等供电。降压过程也存在能量损失,将降压与整流合二为一来有效降低能量损耗。负载端升压降损负载端升压降损。随着芯片集成度增加,服务器整机功率密度逐步呈现上升趋势,末端柜机、板载电源也需要提高 DC-DC 供电的电压等级来满足容量需求,并减少中间降压环节,避免损耗。数据中心散热技术。数据中心散热技术。目前主流的散热技术包括自然冷源散热、间接蒸发冷却和液冷技术。相较于前两者,液冷散热技术不受自然条件和地理位置限制,可以达到更低 PUE、降低 IDC 噪音,在高功率密度情况下散热效果更优。二、二、从从 0 到到 1 基础设施建设基础设施建设模式模式(一一)基于微模块建设

    36、方式基于微模块建设方式 1.数据中心建设数据中心建设 东数西算政策出台时,已经考虑到布局的重要性,我国西部自然条件良好,清洁能源丰富,可以解决新建算力中心耗电量大,节能减碳要求高的问题。非常适合新建大型或者超大型的算力中心。前面已经提到算力中心在建设时交付效率、能效水平等硬性要求,而模块化的方式建设算力中心是最适合的解决方案,采用池级微模块和集装箱微模块解决方案,算力中心可以分割成多个算力模块或者算力节点,整体算力按照节点或模块逐步增加,可以从单个模块到几十个微模块根据需求分期建设,分期部署。此举可大幅提升算力中心的扩展性,可使任何大小的 IT 空间的配置都达到最佳状态。与此同时,微模块算力中

    37、心方案还可显著降低数据中心在使用寿命期间的成本。相较传统建设方式,工厂预制化的算力微模块建设周期更短。在规划及设计初期,可根据设计目标以合理的方式配置系统结构;每个模块可以批量生产,现货供应;标准化的连接方式可减少现场配置与连接的工作量,加快安装速度。以现有案例来看,模块化算力中心可大幅缩短建设周期,建设周期可缩短至 2 至 3个月。另外,预制化、模块化算力中心采用标准化高度整合式设计,系统稳定性、适配性高,从根源上就降低了运维难度。同时,模块化算力中心还可根据不同用户对数据中心等级需求,可灵活弹性的配置 N、N+1、2N 等配电方案。值得注意的是,随着智能化水平的提升,模块化算力中心层面也逐

    38、步智能化,从供配电、机柜、制冷、综合布线等多方面出发,实现智能化,可以做到“早预防,早发现”,进一步降低了运维难度,提升了算力中心稳定性。2.简易算力部署简易算力部署 简易算力需求灵活,部署规模可大可小,除了场地条件规模较小之外,环境条件也无法达到西部新建大型算力中心等级标准,池级微模块应用会受到电力、散热等条件的制约,但算力密度和制冷需求并未降低,排级微模块在保留池级微模块高扩展性、预制化、标准化、智能化的基础上,设计了封闭式的排级机柜系统,封闭机柜具备智能超温自动开门保护功能。行间空调全正面送风,结合机柜排通道封闭措施,冷量集中供冷到发热负载,保证了服务器机柜不同高度进风温度的均衡性,避免

    39、了局部热点,延长算力设备的使用寿命,有效解决能效问题,PUE 数值进一步降低,同时封闭式机柜设计可以有效的隔绝噪音。3.边缘计算节点边缘计算节点 边缘计算条件极不确定,存在各种各样可能对柜内设备损坏的可能性,这种微型节点需要重点考虑减少部署环境依赖,运行可靠性、免维护性、性价比等方面,结合 IT 设备数量少的情况,仅需要一个单独的封闭柜体即可满足要求,但 也需要单柜空间内具备配电、UPS、制冷、监控等基本组成,必要时需要做到改良升级,以适应高低温、盐雾高湿、沙尘风雪等恶劣环境。(二二)基于整机柜交付方式基于整机柜交付方式 1.厂内预制、快速交付厂内预制、快速交付 不同等级微模块在建设时,可以满

    40、足各种规模和场景的数据中心快速投入使用,但距离业务上线可用,还需要基于算力中心基础设施,进行计算、存储、网络、集群调度和管控等多种 IT 设备进行适配。如果能利用算力中心建设阶段,同步在厂内进行算力设备预先集成和验证,并与数据中心基础设施设备进行兼容性互适,那么将减少数倍现场交付环节的时间。整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理 6 个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,最低配置传统机柜式服

    41、务器 10%的电源数量就可满足供电需要,电源效率可以提升 10%以上,且单台服务器的能耗可降低 5%。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从 1 台上升到几十台,交付效率大大提升。(三三)基于液冷建设交付方式基于液冷建设交付方式 1.数据中心液冷技术数据中心液冷技术 液冷技术凭借其有效降低能耗、减少故障率、突破环境局限性、静音和易热回收等优势成为绿色数据中心建设的技术趋势之一。以预制化、模块化为设计理念的低碳、高效、高密、静音、高可靠及智能运维液冷方案,可以实现更高可用性和更低 TCO,助力东数西算高质量低碳数

    42、据中心建设发展。液冷技术将数据中心室内和室外分别称为一次侧和二次侧,其中:在一次侧部分,相较于传统风冷模式取消冷水机组部分,大幅提升了整体系统能效;二次侧按照冷却液是否与设备直接接触主要分为两种架构模式:一为间接的冷板式液冷,通过冷板内的冷却液为高功率发热元件提供散热;二为直接式的浸没式液冷,直接通过冷却液与 IT 设备直接接触进行散热。其中二次侧根据冷却液带走热量时是否发生液态到气态的变化,分为单相和相变两种形式,相变形式在换热效率上更佳,但相变形式不具备易用性,会增加系统控制和运维方面难度。超云在单相冷板式液冷和浸没式液冷方面有着深入研究,在二次侧方面,为充分发挥超云液冷 IT 设备算力能

    43、效,形成以基础设施与 IT 设备高效融合的整体产品解决方案。2.冷板式液冷冷板式液冷 冷板式液冷采用温水制冷技术,进液温度范围一般在 35-55,可满足高功耗 IT 设备散热,通常采用板式液冷带走高功耗元件热量,包括 CPU、GPU、VR、DIMM 等部件,可占整机散热需求的 40-65%,其它部件仍采用风冷将热量带走,因此冷板式液冷又被称为气液双通道式冷却模式。冷板式液冷在部署形态上与现有风冷架构接近,在传统风冷基础上增加液冷部分系统,主要包括液体冷却分配装置(CDU),可采用柜式和机架式、机柜内设有分歧管(manifold),服务器端增加水冷板和与分歧管对插快接部分,相比于风冷在对插快接部

    44、分服务器与基础设施部分有一定程度的耦合,因此采用整柜交付或集成交付均可。板式液冷相比于传统风冷架构在以下五大方面都有着飞跃式提升:一是带来性能提升,高效散热稳定元件运行状态;二是带来密度提升和成本节约,有效解决散热瓶颈,提高整体部署密度,降低占地成本;三是减少设备因热失效带来的故障率;四是改善机房噪声,降低风冷比例,优化了风扇选型及调速策略;五是节能和降低总拥有成本,从电力使用成本来看,以中型数据中心为例,年均 PUE 能够达到 1.1,相较于国家东数西算要求机房年均 PUE1.25 可 节省约 12%用电费用,若按 2000 个标准机柜折合 0.5 元/度电费,亦可节省近千余万费用。目前冷板

    45、式液冷配套产业链日渐完善,随着冷板式液冷需求量的上升,相关配套成本也呈现降低的趋势。超云板式液冷服务器以计算型四子星和适应各种应用场景的通用型 X86 服务器为主打,同时,可支持全系风冷产品定制化液冷散热改造服务。基于板式液冷服务器节点,推出液冷整机柜服务器产品,以柜为单位,采用集中供电、集中散热与集中管理模式,实时动态匹配整机负载率,保持能效利用率最佳状态。3.浸没式液冷浸没式液冷 浸没式液冷采用中温绝缘液体进行制冷,将所有电子元件浸泡在冷却液中,利用冷却液循环将热量全部带走,因此相比于空气冷却和冷板式液冷架构,浸没式液冷服务器运行环境发生了巨大转变,从空气变为了冷却液。浸没液冷在建设与交付

    46、模式上也与风冷和冷板式液冷有所不同,基础设施与服务器之间存在高度耦合,往往采用整柜一体式交付模式,将服务器置于“Tank”内,类似传统机架倾倒放置的形态,因此对应传统 IT 设备架构也将不完全适用,特别是 IO 和散热模组部分的设计,IO 需要根据 Tank 运维操作考虑,散热模组需要根据冷却介质特性进行综合考虑。对于浸没液冷最大优势特点,即大规模部署时其节能性,一般情况下,年均 PUE 能够达到 1.05;第二是在故障率方面,除 了解决电子元件热失效问题还有湿度、灰尘等环境参数的影响;第三是单柜部署功率密度能够高达 160kW/Rack;第四运行噪声方面做到了完全的去风扇化,仅有泵驱动声音产

    47、生;第五对于算力提升,提供设备超频运行稳定的散热条件,保持存储介质运行最佳状态。目前浸没式液冷配套产业仍有待完善,对于冷却液与各部件材料兼容性要求较高,在总拥有成本和能效水平上不利于小规模部署。超云在北京落成液冷研发实验中心,重点进行浸没液冷预研。通过搭建浸没液冷平台系统,优化浸没环境下服务器产品架构,助力提供客户高可靠、高性能、低成本、绿色化全套浸没液冷解决方案。三、三、算力部署及数据处理模式算力部署及数据处理模式(一一)计算计算 计算作为东数西算数据中心的核心部分,主要由 CPU 的绝对性能和业务生态决定,X86 架构目前仍是数据中心计算平台的首选,市场主流包括基于 Intel 和AMD

    48、两条技术路线,从实际应用来看,Intel 业务生态更加优秀,AMD 理论性能更佳,可根据东数西算数据中心承载业务的不同来区别选择。1.Intel 架构典型服务器架构典型服务器 在“东数西算”战略的推进下,国内新一轮的科技与产业变革将持续深化,数字经济迎来了新的发展阶段。“IT 基础设施”作为数字经济的坚实底座也将迎来新的发展机遇,服务器作为 IT 基础设施的最核心的产品之一,通过各种方式(云、容器、边缘等)面向各类应用提供算力支撑,其中 CPU 则是服务器核心算力单元,Intel 凭借领先的产品技术和良好的生态建设在服务器 CPU 领域占据约80%的份额,通过不断完善其 Xeon 可扩展处理器

    49、的架构和性能,从 Skylake、Cascade Lake、Ice Lake 再到即将发布的 Sapphire Rapids,将为“东数西算”提供更强大的算力保障。超云作为国内领先的 IT 基础设施与服务提供商,通过持续不断的研发投入和自主创新,目前已拥有行业领先、品类齐全的 Intel 服务器产品布局,覆盖通用计算、边缘计算、液冷服务器以及定制化产品线,满足市场多样化的产品需求,并可根据用户的实际业务进行灵活的产品开发定制。超云 R5215 G12 是基于第三代英特尔至强可扩展处理器最新推出的一款高端双路机架式服务器。产品以强劲的计算能力,完善的产品生态,灵活的配置搭配满足各行业应用需求,适

    50、用于高性能计算、大数据分析、AI 及分布式存储等多种业务场景。优异的 AI 扩展:R5215 G12 在 2U 的空间内可以灵活搭配 8 张单宽推理卡或者 2 张双宽训练卡,并且适配了业界各大品牌的 GPU、FPGA 及 ASIC 芯片的主流型号,可轻松应对各种 AI 方案部署。NVMe 全闪扩展:支持前置热插拔的 28 盘全闪 Gen4 U.2 NVMe,且所有 U.2 NVMe 均采用 CPU 直出(非 PCI-E Switch 方式),保证性能无衰减、IO 无收敛,将 PCI-E 资源发挥到极致。2.AMD 架构典型服务器架构典型服务器 2017 年 AMD 携第一代 EPYC Napl

    51、es 宣布重新回归企业级市场,打破了 x86处理器市场多年的沉寂,并且于 2019 年推出 Zen 2 架构,是全球首个支持 7nm制程工艺,单 CPU 最高支持 64C 的处理器,同时率先支持 PCI-E 4.0,并加入安全特性 SEV 的技术。AMD 前两代 EPYC 处理器的成功应用扩大了 AMD 在服务器市场的影响力,在 2021 年 AMD Milan 处理器问世后,通过全新逻辑设计,统一 CCD缓存实现 8 核共享 32MB 超大 L3 缓存,IPC 提升约 19%,同时支持 6 通道内存,向前兼容 Rome,实现平滑升级,大大降低企业升级成本。AMD 即将问世的 Genoa专为

    52、SP5 设计,最高 96 个物理核心,将支持 DDR5 内存以及 PCIe Gen5 和 CXL,Zen 4 较 Zen 3 预计单线程提升 15%、且多线程提升 35%,助力东数西算业务高速增长。超云作为国内最早发布 AMD 服务器的厂商之一敏锐把握市场趋势,与 AMD 成立国内首家 AMD 联合创新实验室。目前已拥有业界最全的 AMD 服务器产品线布 局,包括通用计算、高密计算、边缘计算及液冷服务器,满足市场差异化产品需求。超云 R6242 A13 是基于 AMD 第三代 EPYC Milan 处理器打造的超高密四子星产品,拥有行业最高的计算密度,2U 空间内最高可提供 512 个物理核心

    53、,HPL 值最高可达 2000,每个独立节点支持 4 个热插拔 U.2 NVMe SSD 硬盘,实现百万级IOPS,采用共享电源系统设计,四节点共享 2200W 钛金级冗余电源,有效满足虚拟化、超融合、HPC 等对计算密度要求高的场景。(二二)AIAI 近年来,人工智能呈现高度发展的状态,人工智能通过对数据的挖掘和分析,可以充分发挥数据价值,释放数字经济能量,简而言之,人工智能已成为推动数字经济发展的新引擎。人工智能的快速演进有三个要素支撑,算法、数据和算力。目前通用 CPU 难以满足呈现指数增长的人工智能算力需求,亟需并行度更高的异构算力承载。可以说,东数西算的算力部署离不开丰富的异构算力支

    54、持,目前主流的异构算力有三种,分别是 GPU、FPGA、ASIC,代表着不同的技术路线,适用于不同的业务负载类型。1.GPU 典型服务器典型服务器 GPU 是人工智能第一大加速芯片类型,是目前市场人工智能加速卡主流芯片。相较于传统 CPU 芯片,GPU 具备并行计算能力强,算力高的特性。除此之外,NVIDIA 基于 GPU 打造了 CUDA 开发生态,提供丰富的工具支撑,经过发展和完善,可支持现有的大部分深度学习算法,为应用开发者提供了优秀的开发平台。GPU 服务器是承载 GPU 算力的平台,可以在单机提供丰富的异构算力支持。得益于架构和工艺的革新,GPU 卡推理性能每一代相比上代都至少提升一

    55、倍性能,但单张 GPU 卡能集成的算力是有限的,远远无法满足业务的迭代对 AI 算力的需求,导致业务需求和算力增长处于供需不匹配的状态。为此,支撑业务的 GPU 服务器不再是单机单卡模式,而是多机多卡、并行处理的架构。同时,一系列为集群优化的专用机架构取代了传统架构。并行集群搭建的主要瓶颈就在于延时,GPU 服务器采用了多种技术来保障算力通信的高带宽和低时延。如 NV Link 技术,GPU 之间可以使用 NV Link 协议直接互联,提供远高于系统总线的互联带宽,实现信息高速传输;服务器之间的的GPU 也可以使用 GPU direct 技术通过远程直接数据读取协议进行直接通信,有利的保障集群

    56、性能的线性提升。在存储层面,GPU 服务器可使用基于 PCI-E 4.0的高速 NVMe 缓存的搭载来实现数据到 GPU 缓存的快速写入。超云 R8488 A13 是针对大规模 AI 和 HPC 优化的 GPU 服务器,采用 NV Switch GPU 架构,支持 8 张 GPU 卡 600GB/s 全互联,同时可配备 8 张 200Gb/s InfiniBand网卡及全闪存储,实现计算,网络,存储的均衡配比,尤为适用于需要大规模数据处理与分析的后台场景。与此同时,R8488 A13 标配钛金级电源,在 4U 高度支持 5PFLOPS 算力的同时实现高效节能。超云 R8428 G12 则是为更

    57、广泛 AI 场景设计的 GPU 服务器,通过均衡的系统设计,可以提供极佳的 GPU 兼容性,单机支持最高 10 张双宽 GPU 卡。在 GPU 卡类型方面,既可支持 NVIDIA Teala 系列 GPU 卡,也提供多款国产 GPU 卡打包方案,在 AI 训练、推理、HPC 等多项场景提供灵活算力。2.ASIC 典型服务器典型服务器 ASIC 芯片作为专用芯片,针对特定应用和算法进行定制设计,在固定场景下性能和功耗远远低于同等算力水平下的 GPU,更加具备性价比。目前已有 ASIC芯片得到了大规模的商用,如谷歌的 DPU 芯片,规划算力已达到 EB 级别,ASIC通过专用设计突破摩尔定律的限制

    58、,达到了单卡性能的新水平。ASIC 芯片并非是 AI 领域的通解,具备较大的局限性,如 ASIC 芯片是针对专用算法设计,初始门槛高,开发困难,应用范围较窄。ASIC 服务器作为专用服务器,产品基于专业集成芯片性能发挥设计,单机集成海量低精度算力,同时硬件针对专业应用场景优化,最大幅度节约用户投资。超云 ASIC 服务器通过与 ASIC 芯片厂家联合预研的方式,最大程度开发 ASIC芯片潜力,与此同时,与应用厂家深化合作,提供应用软件打包,为用户提供软硬一体的解决方案,实现开包即用。通过这种一体化的方案,最大程度上降低用户的学习成本和总体拥有成本,丰富用户选择。3.FPGA 典型服务器典型服务

    59、器 FPGA 是可编程门阵列芯片,能够实现硬件级编程,具备中等的性能和易用性,同时具备极佳的网络能力,可实现流式大流量吞吐数据并行处理。FPGA 在近用户端的数据处理方面有着得天独厚的优势,具备延迟低,灵活度高,性价比高的特性。基于 FPGA 的服务器相对于 GPU 服务器,通过定制化算法电路及更强的多指令并发处理能力,可以灵活适配不同的算法模型,具有极强的性能优化空间。在人工智能边端推理方向,FPGA 服务器凭借着自身的低延时性和低功耗性,尤为适合数据在边端的实时处理,提供更贴近用户侧的 AI 算力。目前基于 FPGA 的生态也已经日趋成熟,FPGA 成为人工智能芯片领域新的生力军。超云 F

    60、PGA 服务器 R5210 E12 是面向边缘推理端推出的全新一代边缘计算服务器,基于 FPGA 体积小,算力优化的特性,在边缘服务器上部署 2 块 FPGA 卡,同时采用可选液冷散热方案,在 OTII 标准下支持超过 250TOPS 算力,在边缘端提供训练和推理服务,实现本地快速响应。(三三)存储存储 实施“东数西算”工程需要构建大批新型数据基础设施,算力与数据相辅相成以承接千行百业的丰富应用,多种应用对于数据有着不同的需求,存储作为数据核心载体,在其中也扮演着不可或缺的角色。数据根据访问频次分为“冷、温、热”数据,针对不同数据类型超云推出三种类型的对应基础设施产品,分别为海量存储产品-冷数

    61、据,高密存储产品-温数据,全闪存储产品-热数据。1.海量存储服务器海量存储服务器 数据大爆炸时代到来对大容量存储技术提出越来越迫切的需求,海量的数据,无疑是当前对存储最大的挑战之一,而“海量存储”的诞生直击大数据和云存储场景,其核心原则为容量高、成本低、易管理,海量存储并非传统意义上简单的服务器堆积,而是要解决现实中呈指数级增长的诸多技术难题和实现超大规模项目的部署,通常需支持百 PB 级存储规模和支撑万级别数量客户访问。不断增长的数据,传统通用服务器已无法满足现有需求,超云基于存储平台发展战略,推出 4U 海量存储产品 R5410 G12,主要面向图片视频处理、流媒体分发、在线云存储等业务场

    62、景,满足存储过程中遇到的高性能、高扩展、易使用需求。在整机配满 18T 硬盘时单机最高可支持 648T 的裸容量,通过结合存储管理软件平台协同本地存储、外部直连存储、SAN 存储一起使用,为搭建异构存储环境、海量数据存储系统提供强大助力。超云 R5410 G12 能够实现海量存储、配置灵活,通过单机支持超大容量硬盘,满足高速增长的数据存储需求;极致性能、高效散热,充分考虑存储空间与整机散热,在实现“存的下”的同时保证机器相对长久高效运行;智能管控、降低运维,采用 EXP 设计实现多硬盘集中式管理,最大限度发挥硬盘集群 IO,提升用户体验。2.紧凑型存储服务器紧凑型存储服务器 东数西算背景下对存

    63、储基础设施的性能和可扩展性提出了前所未有的挑战,现有的存储密度远远无法满足客户群体对于存储容量增长以及 TCO 控制的需求,目前主要需求集中在如何实现在有限空间的机柜内拥有更高的密度。在很长一段时间内,存储密度的增长主要依赖于磁盘容量的提升,而传统 2U12 盘的存储服务器受限于散热、槽位、设计等因素,导致存储密度提升异常困难。超云通过创新结构设计以及极强的差异化特质推出高密存储产品 R5224 G11,2U 空间可实现 24 块热插拔 3.5 寸大容量硬盘,实现了计算、存储、IO 的极致均衡,且在存储能力上不弱于通用存储的情况下释放了更多的存储物理占用空间,使得空间利用率更高;通过多台高密存

    64、储服务器可以轻松组建分布式存储集群,有效扩展存储容量和性能得盘率,在保证性能的同时,能够实现 80%的得盘率,以达到降低项目整体 TCO 的目的。3.全闪存储服务器全闪存储服务器 东数西算要响应“双碳”目标,推动数据中心绿色集约发展,提倡少耗能、优化能源使用结构,相对于 HDD 机械盘阵,全闪存储采用全 NVMe SSD 设计,相同的容量下性能远远超于机械存储的同时还使得电力能耗最高可降低 80%,能够大幅降低数据中心 TCO,有效推进数据中心低碳运转。同时为了进一步缩短存储网络的延迟,在协议方面NVMe逐渐成为主流;在接口方面,SSD从传统的SATA/SAS过渡到 PCI-E,可以进一步释放

    65、固态硬盘的性能,使硬件直接与 CPU 进行通信以 提高响应速度。同时随着 PCI-E 4.0 和 PCI-E 5.0 的传输效率进一步提高,为PCI-E SSD 提供了非常大的接口带宽,以满足用户为高带宽低延时的需要。面对有数据强一致性要求、高 IOPS、低时延需求场景,超云推出全闪存储产品 R5215 G12,专为应对科学计算、虚拟化、大数据等复杂计算环境设计。在闪存技术方面,超云 NVMe 产品系列兼容 U.2、M.2、AIC 各类规格 SSD,2U 空间内实现最多 28 NVMe 设计,整机提供丰富的 PCI-E 扩展和灵活可选的网络模块,致力于为企业用户提供高性能、低延迟的 IOPS,

    66、以及更高效的数据分析环境,从而通过全闪磁盘阵列加速用户创造价值、突破创新。四、四、集群管理及应用模式集群管理及应用模式“东数西算”工程的不断推进,将进一步助力中国数字经济的高速发展,服务器等 IT 基础设施在算力集群建设中的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也大幅提升,传统的 IT 基础设施的故障运营也面临着更大的挑战和投入,从最初的脚本、工具到再到平台运维。演进至今,单靠增加运维人员数量的方式已捉襟见肘,无法满足大型算力集群的智能管理、故障快速复的要求。如何快速提升数据中心 IT 基础设施的集群管理效率,成为业界一个亟待解决的新挑战。图 5:超云业务分布示意图 图 6:超

    67、云大规模集群服务器 1.在大规模算力集群的环境下,集群管理软件作为底层管控系统智能中枢,需要对 IT 设备及部件进行全生命周期的寿命和运行状态进行跟踪,通过智能算 法对高风险的部件提前进行预警,降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件,按设备、部件的类别做出相应的隔离措施处理,避免单一非必要部件故障影响整机系统的运行。大规模集群应用场景是由几十台甚至上千台服务器及存储系统组成,在应用层各大提供商都积累了相当技术实力,但是应用层对个体服务器、存储系统故障监控、分析、处理能力极为有限。超云深度管理系统是基于 BMC(底板管理控制器:baseboard management c

    68、ontroller 的缩写)和 IPMI(智能平台管理界:Intelligent Platform Management Interface 的缩写)的基础上设计开发出来的软件系统,为超云硬件产品提供基于 web 网络的可视化管理、监控和自动化运维,实现监视服务器的物理健康特征,如温度、电压、电扇工作状态、电源供应以及机箱入侵等,为系统管理、恢复以及资产管理提供信息。大大提高产品的可用性和易维护性。超云深度管理系统为远程系统管理提供 IPMI v2.0 LAN 消息,包括系统状态监视;重启、重新供电、断电等底板控制;FRU 信息,少量 SEL 信息用入口;对BIOS 有保护和选择的功能。深度管

    69、理系统把 BIOS 或 OS 产生的重要的信息,可以将推进警告作为 SNMP Traps,并通过 LAN 报告严重事件,自发地进行系统健康监视并对严重事件产生纠正动作。五、五、系统运行维护模式系统运行维护模式“东数西算”背景下,新型数据中心的建设将更加绿色低碳和智能领先,而对于业务背后的运维售后类工作也提出了新的更高的要求。更快的售后服务响应、更专业的技术专家队伍、更精准的备品备件保障和更完善健康监测机制,都是数据中心集群高效稳定运行的核心保障。售后服务与技术支持的核心目标是保障数据中心始终在良好的状态下运行,一方面可以及时发现和消除故障隐患,在系统发生问题时,能以最快的速度得到修复,降低或消

    70、除对业务稳定运行的影响。图 7:超云宁夏算力中心外景 1主要服务条款要求 1)在数据中心内部设有专门售后服务团队,保证7x24h不间断的人员值守。2)不同岗位技术人员要求通过专业技能考核、熟练掌握相应领域的专业知识。3)必须建立精准的备品备件机制,按照不同等级分为本地机房备件库、区域备件库,确保备品备件更换的及时性和数量齐备。4)数据中心健康检测,包括日常运维故障检测、周期性例行巡检、IT 厂商巡检等,并且按需进行系统版本升级保障运行的稳定性,形成常态化管理机制。六、六、结论结论 新型数据中心算力、存储、基础设施的能耗、能效水平,已成为东数西算与双碳战略实现的重要衡量标准,是算力高质量发展的关

    71、键要素。目前数据中心发展面临耗能巨大、能效管控要求不断提升、建设规模与建设周期相互矛盾等诸多挑战,难以完全满足国家行业对数据中心的节能增效要求。解决数据中心全生命周期交付和运维服务成为系统性的问题,规划单一产品的能力已经无法满足业务带来的挑战,率先掌握全链条技术能力,能够解决客户全过程服务难题的企业将更具备适应未来“东数西算”所带来的变化的能力。长城超云东数西算数据中心基础架构设计方案白皮书的发布,将持续驱动数据中心全生命周期的绿色低碳发展,以开放的技术路线,促进数据中心向高算力、高能效的技术方向演进,切实快速推动新型绿色数据中心落地,全面赋能社会经济数字化转型发展。面向未来,长城超云秉持“开

    72、放合作、互利共赢”的理念,广泛联合产业伙伴,持续加大关键技术攻关,不断丰富和完善新型绿色数据中心组合技术,加快构建“效率+服务”的新型信息服务体系,助推国家“东数西算”工程高质量发展。七、关于关于超超云云 长城超云(北京)科技有限公司是由 CEC 中国电子、云基地产业基金联合注资成立的国家高新技术企业,公司专注于云基础架构、云系统、云服务三大产业布局,现已形成了覆盖 X86 服务器、信创整机、超融合、分布式存储等产品领域的完善业务体系,是国内专业的数据中心产品及服务提供商。八、参考文献引用备注 注 1,“东数西算”工程系列解读之二|实施“东数西算”工程全面贯彻落实十四五规划和二三五年远景目标纲要精神,国家发展改革委,中国发展网 注 2“碳达峰、碳中和”背景下 数据中心绿色高质量发展研究报告 注 3发挥数字化在建设全国统一大市场中的关键作用 访华南理工大学新时代网络文明研究中心执行主任谢加书教授 本文刊于人民邮电报 2022 年 4 月 19 日 头版 注 4,国家发展改革委:我国将布局八大算力网络国家枢纽节点 加快数字经济发展 注 5,中国信通院数据白皮书(2022 年)相关数据 注 6,一文读懂“东数西算”东数西算三问,什么场景、挑战在哪、机遇如何,砍柴网 本文内容部分参考互联网,参考备注如未尽指出敬请谅解,如有侵权请联系删除

    展开阅读全文
    提示  三个皮匠报告文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:长城超云:东数西算数据中心基础架构设计方案白皮书(2022)(43页).pdf
    链接地址:https://www.sgpjbg.com/baogao/107303.html
    联系我们 - 网站声明 - 网站公告 - 侵权处理 - 免责声明 - 版权申诉 - 关于我们 - 常见问题 - 网站地图 - 用户协议 - 认证协议

    copyright@ 2008-2013        长沙景略智创信息技术有限公司版权所有
    公安局案号:湘公网安备 43010402001071号 | 工信部备案号:湘ICP备17000430号-2 | ICP经营许可证:湘B2-20190120 | 出版物经营许可证:新出发岳文字第43010420211号