《中国⼯商银⾏软件开发中⼼:2024工商银行云数智融合算力技术及应用白皮书(14页).pdf》由会员分享,可在线阅读,更多相关《中国⼯商银⾏软件开发中⼼:2024工商银行云数智融合算力技术及应用白皮书(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、 版权说明?白皮书 工商银行云数智融合算力技术及应用 中国商银软件开发中?2024 年 10?版权说明?版权说明 本书版权属于中国商银软件开发中,并受法律保护。转载、摘编或利其它式使本书字或者观点的,应注明“来源:中国商银软件开发中”。违反上述声明者,我们将追究其相关法律责任。?1 录?录 第章 概述.2 第章 云算体系建设情况.4 第三章 云数智融合情况介绍.6()云数融合.6()云智融合.7(三)融合调度.9 第四章 总结与展望.10 2 第章?概述?第章 概述 算竞争已经成为世界主要国的战略选择。2022 年 8,美国正式签署芯和科学法案,旨在增强美国在芯领域的优势,提升其算基础设施平和
2、创新能。欧盟也在2023-2024 年数字欧洲作计划中也强调了增强数据与计算能的重要性。根据我国信通院发布的 中国算书(2023),算规模排名前五的分别为美国、中国、本、德国和英国,全球算的复合年增率更是达 40%以上。我国在2024年两会政府作报告中提出,适度超前建设数字基础设施,加快形成全国体化算体系。为此,业和信息化部、中央信办、教育部、国家卫健康委、中国银、国务院国资委等 6 部联合印发算基础设施质量发展动计划,强调算基础设施作为新型信息基础设施的重要组成部分,具备多元泛在、智能敏捷、安全可靠、绿低碳等特征,对于助推产业转型升级、赋能科技创新进步、满美好活需要和实现 3 第章?概述?社
3、会效能治理具有关重要的作。中国银也印发 融科技发展规划(2022-2025 年),其中明确提出将“建设绿可数据中,架设安全泛在的融络,布局先进效的算体系,进步夯实融创新发展的数字底座”,作为规划重点任务。根据信通院中国算书,截 2023 年底,我国算总规模达到 230EFlops1,全国各地纷纷发布算布局案匹配业发展需求,算加速向各领域渗透。根据 2023 中国算会发布的中国综合算指数,算规模分布绝部分位于“东数西算”的枢纽内,线城市周边地区领先发展,区域差异明显,其中江苏、河北承接来于上海、北京的外溢需求,规模位于全国前列,线城市及周边省市具有国际竞争的数字应集群、阔的应空间和庞的市场需求,
4、算发展具有明显优势,中西部地区在国家战略下正在加快追赶速度,不断提升算规模。4 第三章?云数智融合情况介绍?第章 云算体系建设情况 前云技术体系还在发展过程中,商银在实践过程中做了很多的尝试和探索,采私有云模式进算供给,并将算从应场景视进步分为联机算、数据算、智能算,其中:联机算特点为节点数量规模,且算节点数量呈现爆发式增,对业务连续性、安全性、可靠性要求很,且需满业务多样化对算供给弹性需求,包含个、互联融、零售、对公、信贷等银核系统的实时业务处理场景。数据算对于时延容忍度相对较,采分布式并计算的式,持处理超规模数据集,前随着数字化转型的加速,数据资源池集中度的提升,资源池内不同租间的弹性调配
5、能变得尤为重要,这不仅保证了算资源的效利,且确保了在对多变的数据处理需求时,能够灵活响应,从撑起数字化转型的潮。智能算的发展围绕着智能技术的应展开,其中,规模的独并计算能构成了智能模型训练的根本需求。这涉及到对多 GPU 卡的调度以及它们之间的协同作,有时甚需要扩展到多机集群的层。为了实现这标,必须要有速的卡间通信带宽,以及能够连接集群内各个AI 服务器的快速络。5 第章?云算体系建设情况?前期商银的各类算按独资源池部署,各类型负载以烟囱式部署在各资源域,CPU 联机算和 GPU 智能算整体使率低,数据算算资源则出现明显缺,难以满峰期业务分析时效性要求,算资源分配极不均衡,综合资源利率相对较低
6、,形中浪费了量算。为了进步节约算,提升算资源使率,商银积极探索,以云数智融合理念打破算资源池边界,初步建设了云数智融合算体系,通过资源混部、柔性调度,异构算体化调度等能,有效实现存量算潜能释放,提升算资源使效能。6 第三章?云数智融合情况介绍?第三章 云数智融合情况介绍 商银在建设了联机、数据、智能算撑基础上实现“云数智融合”,按照“资源池化、协同调度、精细运营、专项治理”的原则,围绕算整体利率提升标,建设效、灵活、精细异构算融合调度体系,充分发挥联机、数据、智能算对各类负载的撑作,构建更加完善的算运营机制,持续提升算使效能。()?云数融合 为了提服务器资源利率,同时满在线业务和离线业务的负载
7、需求,混合部署已成为种常的策略。混合部署的关键在于平衡在线业务和离线业务的需求,以实现资源的最化利,在实现混合部署过程中同步强化了以下能建设,确保资源使效率提升的同时业务的稳定性运。7 第四章?总结与展望?1.负载特性分析:先需要对在线业务和离线业务的负载特性进分析,了解它们的资源需求和峰低时段。这样可以确保在线业务和离线业务在混合部署时能够实现资源互补,避免资源争抢;2.资源隔离:为了保障在线业务的服务质量不受离线业务影响,通过资源隔离技术将在线业务和离线业务部署进资源使优先级策略,实施底层的隔离控制;3.扰检测与防护:在混合部署环境下,需要对离线业务产的扰进检测,并通过相应的技术段进防护。
8、例如,可以使扰检测算法实时监测在线业务运状态,旦发现离线业务对在线业务产影响,可以即采取资源调整、优先级调整等措施,保障在线业务的服务质量。4.动态调整策略:由于在线业务和离线业务的负载需求会随着时间和业务需求的变化波动,因此需要制定动态调整策略,根据实际情况对在线业务和离线业务的资源分配进调整。5.监控与优化:在混合部署环境下,需要加强对在线业务和离线业务的监控,实时了解它们的运状态和资源使情况。通过收集和分析监控数据,可以不断优化混合部署策略,提服务器资源利率和服务质量。()?云智融合 实现智算资源池化调度提升,基于 GPU 共享、资源隔离调度技术,优 8 第三章?云数智融合情况介绍?化
9、k8s 实现 GPU 虚拟化,持更细粒度的算资源调度,并同步优化数据传输带来的瓶颈问题,缩短访问时间提升处理效率。1.智能计算资源池化调度:本研究针对原 Kubernetes(k8s)在 GPU资源调度的局限性,提出了种基于 GPU 共享与资源隔离调度技术的解决案,保持了调度的效性的同时确保了资源的合理分配与最化利。2.AI 存储加速引擎研究:在云原场景下,为提升智算应在处理数据集、镜像、模型等型数据件时的访问速度,采了基于 Fluid 数据编排、分布式缓存加速及点对点(p2p)技术,缩短了数据访问时间提升了处理效率。3.智算弹性资源池构建:通过资源动态调整与弹性伸缩技术,持了资源的灵活配置,
10、有效减少了资源配置不合理所导致的资源浪费,确保了资源的效使。4.智算资源可观测视图建设:构建了统的监控视图,对 GPU 算等异构资源进综合监控,并提供资源冗余情况的统计分析。9 第四章?总结与展望?(三)?融合调度 前已完善混部资源管理、混部调度框架、混部服务质量保障体系的常态化混部核技术能建设;构建针对智能算核资源 GPU 的智算基础设施集约管理能,实现智算资源的快速弹性和效使;建设统算涵盖 CPU、GPU 算的统管理能。10 第四章?总结与展望?第四章 总结与展望 前,商银在云计算与数据、智能融合的算管理领域已取得初步成果。接下来,将以云数智融合为核,继续构建效率的算体系,规划并实施“集团
11、体化”的算基础设施建设。按照更性能、更效,更安全要求,推动云计算的深化应并持续提升混部能建设,逐步推进规模常态化混部,提升服务器资源利率并优化数字基础设施。数据算向存算分离技术架构演进,持在维持数据全局共享的前提下灵活拆分多个计算集群,做到关键场景之间算资源的物理隔离,持新技术能的灰度引与快速迭代,化解超规模单集群的险,持续提升 11 第四章?总结与展望?平台的稳定性。持计算集群和存储集群独扩容,保障计算、存储集群的资源利率充分均衡,更好的融算融合体系中。智能算继续向芯性能更强、集群规模更、络带宽更的向发展,同时随着全球向“碳达峰”“碳中和”战略标迈进,绿效的智能基础设施益成为更多企业的选,实现智能模型技术快速、可持续的规模化应。12 第四章?总结与展望?