1、东数西训场景实现及应用价值n 根据“十四五规划”要求,需“加快数字化发展,建设数字中国”,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。国家已布局“东数西算”,进入全面建设阶段四部委出台全国一体化大数据中心协同创新体系算力枢纽实施方案,加快实施“东数西算”工程。算力是数字经济发展的基础设施夯实数字中国建设基础,要打通数字基础设施大动脉数字中国建设整体布局规划提出优化算力基础设施布局,促进东西部算力高效互补和协同联动。东西协同,数据中心支持国家产业升级算力指数每提高1%,数字经济和GDP分别增长3.3%和1.8%。目标创新:牵引战略和业务转型促进技术创新和变革
2、。提能:提升算力发展水平,促进算力转化为更大生产力。降本:算力资源最大化利用,实现国家、企业降本增效。国家方针政策国家方针政策屏蔽多样化的基础设施资源池多样化云多样化资源多样化私有云公有云边缘云CPU/GPU/FPGAX86/ARMredhat/bc-linux/EulerOsN中心资源池31省级资源池X边缘资源池 国家布局“东数西算”战略 2021年5月,国家四部委联合出台全国一体化大数据中心协同创新体系算力枢纽实施方案,明确提出布局全国算力网络国家枢纽节点,打通网络传输通道,提升跨区域算力调度水平,加快实施“东数西算”工程,构建国家算力网络体系。算力网络成为中国移动重要战略之一 中国移动将
3、系统构建以5G、算力网络、智慧中台为重点的新型信息基础设施,构成“连接+算力+能力”新型信息服务体系,助力数字经济蓬勃发展。战略驱动 内部诉求 省内私有云和一级云并存,两套平台,应用发布和运维体验差,如何实现两级云算力融合。内部各个应容器集群的利用率不均衡,需要更均衡的调度 外部诉求 企业业务多样性,需要部署在私有云、公有云及边缘云上,但云的差异性,导致用云效率差 企业的需要多云来提升业务连续性和降低供应商锁定风险 业务诉求内部客户需求:BOMS跨域融合/异构资源需求/三朵云融合/企业降本增效.外部客户需求:东数西算/企业多云混合部署与实时调度/多资源类型需求n 国家集团战略、内外部诉求驱动跨
4、域、跨云算力的融合中国移动算网发展背景中国移动算网发展背景n AI应用场景的高速发展,赋智应用场景激增。模型训练,需要海量训练数据,和专用GPU算力资源,是典型的大计算量场景,对AI算力提出新需求。算力供需不均衡算力成本差异训练数据管理尤其是高端的加速卡,在AI中心里都是紧缺资源,单中心在承载的AI计算达到一定数量后,很难快速的增加新的资源,来满足业务的需求。其他算力中心的算力资源,可能处于空闲状态,资源无法有效利用。不同地域,不同中心的机房,运营成本不同。例如,东部的机房用地用电相较于西部,往往要高。如果能有效分布计算任务,就可以获得降本增效。AI模型准确度要求越来越高,准备的训练数据集越来
5、越大,所占用的存储也也来越多,特别是,模型训练需要不断累积数据。这些数据在不训练时,属于冷数据,需要考虑如何低成本存储管理。AI场景业务背景场景业务背景分布式云原生一体化调度引擎四大核心能力覆盖多样化场景应用应用多云部署东数西存东数西训应用容灾跨域多样化算力基础设施东部私有云西部省内私有云一级私有云私有云公有云移动云公有云支撑算力感知汇聚执行指令下发第三方私有云华为云一级云移动云三方私有云华为云入网感知编排调度智能运维统一管控四大特性 汇聚全局资源,可视可管不同区域存算力资源、不同类型的存算力资源、不同云存算力资源实现一点汇聚、一点看全看清 融合三力调度,最优部署对存算力进行温冷热分级管理,根
6、据SLA要求,计算出最优的部署路径 统一多云操作,极致体验面向使用者提供一致的部署体验、一致的运维观测体验、一致的操作体验n 面向多样化的异构算力,构建分布式云原生调度服务,实现在使用多样化算力时,感受不到地域、环境、技术栈、资源类型的差异,提升算力使用的便捷性及一致性。算力调度存力调度运力调度 智能运维,故障自愈 综合应用故障感知、定界、决策和自愈AIOps场景能力,打造智能化故障治理体系算网实践总体设计算网实践总体设计东部n 借助于算力调度平台的“算力分析”、“算力调度”以及“数据存储调度”的能力,完成模型训练场景的算力调度的工作,在西部算力资源充足的情况下,实现“西训”的目的。主要功能训