《华为:2024金融数据中心存储顶层架构白皮书(35页).pdf》由会员分享,可在线阅读,更多相关《华为:2024金融数据中心存储顶层架构白皮书(35页).pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 1页,共 35页金融数据中心存储顶层架构白皮书金融数据中心存储顶层架构白皮书华为技术有限公司华为技术有限公司金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 2页,共 35页版权所有版权所有 华为技术有限公司华为技术有限公司 2024。保留一切权利。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意注意您
2、购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:http:/客户服务邮箱:客户服务电话:0755-285600004008302118客户服务传真:0755-28560111金融数据中心存储顶层架构白皮书2024-9-29
3、华为保密信息,未经授权禁止扩散第 3页,共 35页目目录录1 概述概述.51.1 背景.51.2 金融存储趋势、技术&市场洞察.51.3 金融数据中心存储底座建设总体要求.62 存储目标架构规划原则存储目标架构规划原则.83 存储目标架构详细规划存储目标架构详细规划.93.1 生产交易 存储分离的资源池架构.93.1.1 金融行业生产交易场景的趋势和变化.93.1.2 金融行业生产交易场景业务需求.103.1.3 金融行业生产交易场景目标架构.133.2 数据分析-大数据存算分离架构.143.2.1 金融大数据分析发展趋势和变化.143.2.2 金融大数据业务需求.错误!未定义书签。错误!未定
4、义书签。3.2.3 金融大数据平台架构演进趋势.错误!未定义书签。错误!未定义书签。3.2.4 金融大数据分析平台目标架.错误!未定义书签。错误!未定义书签。3.3 金融 AI 业务场景.143.3.1 金融 AI 趋势与变化.213.3.2 金融客户落地 AI 业务需求.错误!未定义书签。错误!未定义书签。3.3.3 金融 AI 业务场景目标架构.错误!未定义书签。错误!未定义书签。3.4 高可用数据中心底座 两地三中心四副本架构.213.4.1 金融行业容灾趋势和变化.263.4.2 金融行业存储容灾架构业务需求.273.4.3 金融行业存储容灾架构.27金融数据中心存储顶层架构白皮书20
5、24-9-29华为保密信息,未经授权禁止扩散第 4页,共 35页3.5 数据保护.293.5.1 金融行业数据保护趋势和变化.293.5.2 金融行业备份业务需求.313.5.3 金融行业备份目标架构.324 结语结语.35金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 5页,共 35页1概述概述1.1背景近年来,在全球经济增长缓慢,贸易战和地区冲突持续的背景下,金融行业的营收压力增大,资产规模增长显著放缓。借助科技的力量,金融机构的数字化进程在后疫情时代持续深化。一方面,金融机构利用数字化技术持续为客户提供无所不在的智能化体验,以满足多样性的客户需求;另一方
6、面,金融机构也在积极利用智能化技术构建敏锐的业务洞察力,以快速应对各种市场变化。因此,金融服务正从数字化时代走向智能化时代。1.2金融存储趋势、技术&市场洞察金融机构一直是率先将新兴 IT 技术的应用于业务场景的行业。凭借云计算云计算,大数据和人工智能等技术大数据和人工智能等技术的应用,金融机构正在优化金融服务流程,重塑金融服务模式。重塑金融服务模式。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 6页,共 35页我们看到,随着手机银行和线上支付技术在金融行业的广泛应用,金融服务触达客户的时间和空间进一步扩展,促使金融机构的服务模式从 5*8 改为 7*24
7、不间断服务。而领先的金融机构,已经开始布局人工智能(AI)应用,尤其是大模型技术的研发,利用 AI 使能业务运营、产品营销、风险控制和客户服务等业务领域,进一步提升金融服务的智能化水平。根据 IDC 的报告,90%的银行已经开始探索人工智能的应用,AI 技术成为银行技术创新的主要方向。业务应用的需要,也驱动着金融机构的数字基础设施架构的转变。以兼具韧性和灵活的云原生应用,逐步淘汰传统封闭的架构,重构创创新开放的存算分离架构新开放的存算分离架构,建设具有高可靠建设具有高可靠,高扩展性的基础设施高扩展性的基础设施,助力金融服务内容和品质的提升。1.3金融数据中心存储底座建设总体要求金融机构需要系统
8、化构建面向未来的金融基础设施,这个目标架构以高可用、高安全、可信合规、绿色低碳为主要特点,支持金融服务的极致体验、业务敏捷、泛在智能和开放创新。基于这些特点,我们认为,主要需要考虑以下几点:业务分级:业务分级:将业务系统根据重要性和服务范围进行科学的分类和分级,通常建议分为 34 档;硬件架构:硬件架构:交易等关键业务系统采用专业的可靠设备,通过专用资源保障,以存算分离架构在确保稳定低时延的同时,提升系统整体金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 7页,共 35页可靠性;非关键环境可根据 TCO、运维习惯和系统扩展性的综合考虑,选择低等级配置的存算分离
9、架构。容灾容灾:传统基础设施采用两地三中心/四中心,云原生系统采用单元化多中心多活;备份:备份:采用全闪存热备+海量对象存储温备+公有云冷备实现多级备份;采用云上业务、云下备份的方式进行混合多云的数据集中备份;归档归档:采用海量对象温归档+蓝光/磁带/公有云冷归档实现多级归档;数据数据&AI&AI:打通数仓、数据湖和 AI 训练基础设施,通过存算分离、湖仓一体等实现数智融合;通过超高并发度、高性能存算网的构建实现高效AI模型训练;通过云管边端协同实现全域数据采集和AI推理。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 8页,共 35页2存储目标架构规划原则存
10、储目标架构规划原则数据中心数据中心存储平台是 IT 系统的重要支撑平台,存储平台应具有稳定可靠、高性能、灵活运维、弹性伸缩等特点,才能适应未来金融业务的发展。存储目标架构基于以下几方面进行设计:1 1、高可靠容灾保障能力、高可靠容灾保障能力:针对不同的存储可靠性级别,设计相匹配的容灾保障方案,选择技术领先、稳定可靠、易于管理的容灾技术。2 2、高吞吐低时延高吞吐低时延 IOIO 处理能力处理能力:针对不同的业务类型以及不同的数据模型,采用相匹配的存储平台和存储介质,并预留扩展能力,满足未来 5-8 年业务发展对存储系统的性能要求。3 3、高效统一运维与管理能力、高效统一运维与管理能力:本次存储
11、平台方案设计,力求将存储平台运维服务化,使存储平台成为整个分布式云数据中下的存储云。能够做到灵活调度、资源可视、高效运维。4 4、弹性伸缩能力:、弹性伸缩能力:存储平台的设计应有较强的弹性,能够有力应对互联网业务的突发与多变。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 9页,共 35页3存储目标存储目标架构详细规划架构详细规划3.1生产交易 存储分离的资源池架构3.1.1金融行业生产交易场景的趋势和变化金融行业数字化转型发展,使得金融服务的业务模式发生了显著的变化。从多数银行公布的年报来看,新兴金融服务交易量年度平均新兴金融服务交易量年度平均增长都在增长都
12、在 50%50%以上以上,而且主要来自网上银行、手机银行和移动支付等新兴技术的应用。因此前端渠道接入系统这类直接面向客户提供服务的请求接入类系统的服务模式正在快速发生变化。新兴的业务模式扩大了金融服务的触达渠道,从传统的线下网点服务扩展到线上服务;延伸了金融服务时长,从原来的 5*8 小时服务延长到 7*24 小时不间断业务服务。另一方面,数字化的深入,凸显数据的重要性,金融行业数十年积累的用户数据和业务数据是重要的数字资产。金融行业在整体数据整体数据量方面已经达到了量方面已经达到了 EBEB(PetabytePetabyte,即千万亿字节)级别,即千万亿字节)级别。以中国为例,根据北京金融信
13、息化研究所(FITI)2023 年发布的最新报告,金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 10页,共 35页目前金融机构的数据量普遍达到 PB 级,尤其是国有大型银行的核心业务系统存储规模也已达到百 PB 级,并且未来五年预计年均增幅将未来五年预计年均增幅将达到达到 24.33%24.33%。3.1.2金融行业生产交易场景业务需求这些业务模式变化和数据量的增长,也正在深刻影响并重塑着金融行业的数据中心基础架构。为适应未来业务发展,数据中心基础设施,必须满足业务所需的吞吐性能和可靠性要求吞吐性能和可靠性要求,并具备面向未来的扩展性扩展性要求:1 1、吞吐
14、性能、吞吐性能业务量的激增,对数据基础设施的性能、吞吐量提出了更高要求。从性能上讲,一般业务处理平均有大约 50 次数据库请求,每次数据库请求约 1000 次左右存储读写(注:基于银行核心系统的交易模型)。因此存储读写时延每增存储读写时延每增加加1 1毫秒毫秒,将增加数据库处将增加数据库处理理1 1秒以上的时延秒以上的时延,对业务整体增加对业务整体增加 5050 秒以上的时延。秒以上的时延。从吞吐量上讲,中等银行生产业务的峰值交易大约 5000 笔/秒(即:5000TPS)来估算,峰值业务处理需要的存储 IO 请求能力约为 1.5M-2.5M 的存储读写。在高吞吐和高性能需求下,采用存算一体架
15、构,将对无疑是个巨大挑战。服务器 CPU 算力不但要负责业务处理,还要完成数据可靠性,数据加密和数据压缩等繁琐的数据存储处理,因此服务器的 CPU 资源捉襟见肘。但是通过存算分离架构,所有数据存储的 IO 请求卸载到金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 11页,共 35页外置存储系统中处理,既减少服务器 CPU 的负载,不用处理存储 IO请求,还提升服务器 CPU 的业务面的处理能力。2 2、系统可靠性、系统可靠性服务时间的延长,对整体架构可用性的提出更高要求。金融业务服务时间的中断,往往意味着交易损失,资金损失,最后导致用户的流失。以中等规模银行为
16、例,核心系统交易量一般在 1000-3000 笔每秒。因此,系统服务中断和不可用的每一秒,则意味着系统服务中断和不可用的每一秒,则意味着 10001000 笔以上笔以上的交易损失和用户流失的交易损失和用户流失,甚至监管层的惩罚甚至监管层的惩罚。例如,星展银行在 2023年先后 5 次大规模中断业务服务,新加坡金管局(MAS)要求其提供 16亿美金的额外资本,并在 2023 年 11 月对新加坡星展银行做出半年内禁止收购新企业等处罚。对于数据中心而言,如果要满足整体业务可用性满足整体业务可用性 99.999%99.999%的要求,的要求,即年停机时间 5 分钟以内,则数据中心基础架构的可靠性必须
17、要提升基础架构的可靠性必须要提升到到 99.9999%99.9999%以上以上,即年度故障时间 30 秒以内。当前,部分金融机构采用基于 x86 服务器的存算一体架构,该架构在可靠性上只能达到99%。金融行业统计表明,x86 服务器超过 5 年以上之后,故障率超过 0.5%,因此采用服务器本地磁盘的数据库存储,随着数据中心集群规模的扩大,频繁的故障和恢复,会对生产交易系统的业务连续性带来严峻挑战。而在存算分离架构下,服务器只负责数据逻辑处理,所有数据的持久化和可靠性等能力都由存储设备统一完成,即使服务器发生故障,也不影响其他数据库实例计算节点的数据访问。同时,金融数据中心存储顶层架构白皮书20
18、24-9-29华为保密信息,未经授权禁止扩散第 12页,共 35页利用存储的 RAID 和快照等技术,极大提升整体业务的可靠。3 3、系统扩展性、系统扩展性业务种类的增加,对业务之间数据交换更加频繁,各类运营数据和报表系统等从生产系统数据库中获取数据的实时性要求更高。银行生产交易系统是各类系统运营数据和报表等系统的数据源,如何实时的获取有效的数据,并且对生产系统的业务影响最小,成为各业务系统与生产交易系统之间不可调和的矛盾。在存算一体架构下,必须通过专用 ETL 工具直接对数据库数据进行操作,对业务系统造成性能干扰,因此只能选择在夜间业务低谷时段抽取数据,对后端系统的实时性造成影响。在存算分离
19、架构下,可充分利用存储的一致性快照和克隆等能力,快速构建生产交易系统的数据库副本,满足各类后端系统对业务数据实时性需求,并且对生产端数据库业务的性能影响最小。比如,每日批量作业希望每日夜间定时从主库上利用存储的一致性快照和克隆等能力,快速生成一个数据库集群,用于每日批批量作业的读写操作。因此,面向未来,为了满足业务性能,可靠性和扩展性的要求,基于共享存储池和分层解耦的存算分离架构将是主流的架构选择方基于共享存储池和分层解耦的存算分离架构将是主流的架构选择方向向。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 13页,共 35页3.1.3金融行业生产交易场景目标
20、架构从金融行业来看,越来越多的金融客户倾向于采用分层解耦、按需分配的统一资源池架构打造生产交易平台,参考架构如下图所示:该架构具备如下特点:1、根据业务系统的服务等级,从吞吐性能和可靠性要求,分成不同的等级,一般建议分成 3 级或者 4 级。比如 Tier1 采用物理服务器,满足高性能高可靠要求;Tier2满足大部分金融业务处理的通用需求;Tier3 满足一般性能和可靠性要求的业务处理,比如开发测试应用。2、按照不同等级业务系统,分配不同的计算和存储资源。同一等级业务系统分配标准的计算和存储资源,内部通过 Quota 配额和 QoS 服务质量的方式来实现应用的隔离和资源保障。3、能够兼顾物理服
21、务器计算资源、虚拟化平台、容器平台的多样性数据读取需求,提升整体资源利用率和系统可靠性。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 14页,共 35页4、同一等级的分层解耦资源池,统一采购,统一配置,统一运维,形成标准化体系。3.2数据分析-大数据存算分离架构3.2.1金融大数据分析发展趋势和变化中国金融大数据产业快速发展中国金融大数据产业快速发展,成为金融行业业务增长的新引擎。成为金融行业业务增长的新引擎。近几年,随着移动金融、互联网信贷等新业务形态的出现,金融大数据应用得到长足发展,已经渗透到金融行业的方方面面,广泛应用到营销、风控、运营等多种关键业务
22、中,极大的提升了金融行业的服务水平,大数据已成为金融行业的主要获客渠道。IDC PeerScape:金融领域中数据管理分析服务最佳实践案例报告显示,2023 年,中国金融行业大数据市场支出规模达到 29.7 亿美元,预计到 2027 年将增长至 64.6 亿美元,CAGR 达到 21.4%。未来几年,金融大数据市场仍将保持较高的增速,是数据管理、数据分析厂商争夺的主要市场,目标客户覆盖大型和中小型银行、保险、证券、互联网金融等客户。随着大数据应用的深入随着大数据应用的深入,大数据平台从注重数据处理走向注重数大数据平台从注重数据处理走向注重数据价值挖掘。据价值挖掘。诺贝尔经济学奖获得者罗纳德科斯
23、(Ronald Coase)曾经说过,“如果你拷问数据到一定程度,它会坦白一切”,诚然,大数据+AI时代的到来让这句话有了更多的现实意义,如果说石油滋养了工业时代,那么海量非结构化数据就是智能时代的石油。金融大数据平台的金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 15页,共 35页使命要从注重数据处理走向注重数据价值挖掘。3.2.2金融大数据分析业务需求随着外部数据规模和金融客户应用场景的变化对大数据平台提出了新要求,降本增效成为关键诉求:1 1、能获客能获客:大数据平台要具备 PB 级的海量文件分析能力,能够从海量数据当中快速挖掘价值信息,唤醒“沉睡”中
24、的老客户,拓展潜在新客户。2 2、能活客:、能活客:大数据平台要具备极致高性能,存储系统需要具备毫秒级时延、TB 级高带宽,能够抵挡业务高峰浪涌,支持 T+0 的数据实时分析,为金融反诈、信贷评估等业务提供实时生产决策能力,以高质量的服务融入客户的生产、生活,提升客户活跃度,形成与客户的双赢局面。3 3、降本增效降本增效:近几年金融大数据投资预算逐年走高,但是随着 AI 时代的到来和监管要求的趋严(如要求数据留存期大于 10 年),投资预算的增长显然无法赶上非结构化数据量的增长速度,剪刀差越来越大,这就要求金融大数据平台一方面要降低单位容量的投资成本,另一方面还要提升单位容量的性能,支持海量数
25、据低成本存储,并且支持随时调阅。4 4、支持平滑演进:、支持平滑演进:大数据平台需要具备支持面向未来的平滑演进,支持 HDFS、S3 多种数据访问协议,平台升级过程中,老的存储集群可以统一纳管,保证历史投资不浪费。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 16页,共 35页5 5、更简单的数据管理:、更简单的数据管理:支持多任务资源隔离,保障关键任务高效执行,具备跨域的数据管理能力,全局数据可视、可管、可用,并且具备多 DC 容灾能力。3.2.3金融大数据分析平台架构演进趋势湖仓融合架构领跑大数据的下半场湖仓融合架构领跑大数据的下半场,成为金融大数据的重
26、点布局成为金融大数据的重点布局技术技术。传统数据湖和数据仓库分离建设,数据湖擅长存储和处理各种类型、大量原始数据,而数据仓库则更擅长结构化数据的存储和高效查询,各自都有一定的局限性。湖仓融合架构结合了两者的优点,能够在同一系统中处理结构化和非结构化数据,提供统一的数据管理和分析平台,从而提高数据处理效率和分析能力,降低数据管理成本。这种架构特别适用于需要实时分析大量复杂数据的场景,因此湖仓融合也成为了大数据技术发展的重要趋势。基于专业分布式存储的存算分离方案是大数据湖仓融合的基础基于专业分布式存储的存算分离方案是大数据湖仓融合的基础。传统存算一体模式采用 Hadoop 原生存储底座进行数据存储
27、,单命名空间支撑的文件数量少、三副本冗余机制存储空间利用率低、跨域数据管理能力弱,无法支撑湖仓融合架构下海量的结构化、非结构化、金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 17页,共 35页半结构化数据统一存储诉求。专业分布式存储因其良好的协议扩展性、容量密度、空间利用率和性能,可以很好的应对湖仓融合架构下对存储的各类要求,因此基于专业分布式存储进行存算分离改造是湖仓融合的先决条件。3.2.4金融大数据分析平台目标架构Hadoop 有多种计算引擎,包括离线、实时、内存、流式等,各种计算引擎都有自己擅长处理的文件格式,保证各种计算引擎的性能,但是这也造成了一
28、份数据的重复存储。拉通各个计算引擎的文件存储格式,做到一份数据存储支撑多种引擎,可以大幅降低存储成本。存算分离是大数据平台持续演进的关键所在,通过存算分离改造,支持计算集群和存储集群分离部署,实现资源的按需配置。既解决了不同大数据集群间计算、存储资源利用率不均的问题,又使得大数据计算节点可以和用户的其他计算节点能够按业务峰谷灵活调配,一举两得,我们推荐的大数据方案架构如下图所示,支持 HDFS 和 S3 两种数据访问协议,通过元数据网关实现新老集群统一纳管。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 18页,共 35页该架构具备如下显著特征:1、大数据平台
29、存算分离降本增效(1)采用全闪分布式存储替代传统通用服务器,存储设备容量密度、性能大幅提升,达到通用 HDD 服务器的 10 倍以上,通过极致高密、极致绿色、极致性能的全闪分布式存储加速大数据分析。(2)存储底座的数据冗余策略采用大比例 EC 替换传统 Hadoop 三副本方案,提升存储资源利用效率,大幅节省存储资源。(3)存算资源解耦,资源按需配置,对于数据密集型大数据平台,传统存算一体方案存储资源是瓶颈,计算资源利用率往往不足 20%,通过大数据存算分离改造,计算节点 CPU 资源利用率可以达到 50%以上,改造之后的计算、存储设备总台数较传统存算一体方案节省 30%以上。(4)存储底座采
30、用分布式元数据管理方式,单一命名空间支持百亿金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 19页,共 35页级文件统一管理,较存算一体方案的单命名空间亿级文件数量提升100 倍,真正做到一套存储搞定所有,消除数据孤岛。2、平滑演进(1)大数据平台演进过程中,新老集群的数据迁移、老集群的平滑退出往往是一大难题,华为存算分离方案通过元数据网关支持新老集群统一纳管和数据灵活迁移,老集群可以平滑退出,有效保护客户历史投资。(2)同时支持 HDFS 和 S3 两种协议,无缝对接现有大数据集群,业务 0 改造。(3)统一存储底座,同时支持多厂家、多版本 Hadoop,适
31、配无忧。3、高效管理随着数据量的急剧膨胀,一方面数据的跨地域访问日益频繁,如何消除数据重力让全域数据自由流动成为了亟需解决的问题;另一方面大数据平台多用户、多任务分析已经成为常态,存储资源隔离的能力变得日益重要。(1)支持全局文件系统,全局统一视图,打破数据孤岛,实现跨域数据高效管理,全局视图,跨数据中心数据可见,元数据增量秒级更新,全局数据视图实时永新;支持全局数据自由流动,激活数据价值;具备跨 DC 智能缓存,支持传输压缩,数据跨 DC 传输效率大幅提升。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 20页,共 35页(2)SmartQos 实现精细化资
32、源管理,多用户、多业务并行不悖,百万级大数据作业稳定运行,运维无忧。(3)具备多 DC 异地容灾能力,存储解决方案可靠性达到 6 个 9 高可靠,同步多活和异步多活两种模式可基于业务诉求灵活配置,保障大数据分析业务时刻在线。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 21页,共 35页3.3金融 AI 业务场景3.3.1金融 AI 趋势与变化自从 2022 年 11 月 ChatGPT 发布以来,AI 大模型技术得到迅猛发展,2023 年底 Google 发布了 Gemini 大模型实现了大模型可以像人类一样理解看到的内容,今年 2 月 OpenAI 发布
33、的 Sora 大模型实现了用大语言模型的方法理解视频,实现了对物理世界的“涌现”。AI 大模型的发展速度远超人们的预期,从 ChatGPT 到 Gemini 再到Sora,主要带来了两大主要变化趋势:首先,随着 AI 大模型从 NLP走向多模态,训练语料从纯文本变成了文本、视频、图片和语音的混合,AI 大模型所依赖的数据呈现指数级增长。大模型所依赖的数据呈现指数级增长。其次,算力、算法和数据是 AI 大模型发展的核心三要素,算法和数据是相互依存,螺旋上升的变化规律,AI 模型从千亿参数到万亿模型从千亿参数到万亿,将来甚至会到十万亿将来甚至会到十万亿,训练 AI 模型所需要的数据同样需要数据级的
34、提升,缺少训练 AI 模型的数据将成为新常态。当前 AI 在金融行业的应用场景已非常广泛,在提升金融产品营提升金融产品营销能力销能力、提升风险处置能力提升风险处置能力、提升运营与开发效率提升运营与开发效率、使能新业态使能新业态四个方面已经显现出不同的价值。目前大量金融客户加大 AI 投入并开始应用探索。在提升金融产品营销能力提升金融产品营销能力方面,AI 技术可以帮助银行实现客户画像的精准构建和个性化推荐以及定制化服务。基于对客户画像的深金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 22页,共 35页入理解,AI 系统可以自动推荐符合客户需求的金融产品和服务
35、,营销时客户的圈选就能够更加有针对性,提高营销精确性。在提升风险处置能力提升风险处置能力方面,通过“信用评估”、“欺诈检测”等风控领域 AI 应用可以提升银行的风险防范与处置能力,使其能够加大面向中小微实体经济的资金要素供给,逐步成为区域经济发展的新动力,切实提高金融服务实体经济效率和支持经济转型发展的能力。在提升运营与开发效率提升运营与开发效率方面,通过人机交互打通智能客服,智能网点等服务界面的业务阻隔与流程断点,实现“端到端”业务流程触发、路径选择、任务派发与质量监测,提高业务处理标准化、智能化水平,大幅提升银行客户体验。如某头部银行在中国有四万多个网点,20 多万个网点员工,通过 AI
36、技术,让每个银行柜员拥有自己的智慧助手。根据客户问题生成操作指引,将以前 5 次操作缩短为 1 次,单次办结时间缩短 5 分钟。在使能新业态使能新业态方面,AI 结合 IoT、区块链等新技术,将直接服务对象由“人”延伸到“智能物”,构建以场景为核心的业务模式,以及基于客观数据信用体系的风险管理模式。从而使得基于动产可信的质押模式成为银行的新业态。AI 大模型在金融行业应用场景丰富,如图所示金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 23页,共 35页3.3.2金融客户落地 AI 业务需求随着 AI 大模型的不断发展,数据作为智能的源泉,对于 AI 大模型的
37、训练和提升起着至关重要的作用,数据的数量与质量将决定着AI 模型智能化的程度。当前金融客户在 AI 模型训练与推理过程中遇到如下关键挑战:1、随着集群规模迈入千卡、万卡,故障率呈指数级增加,以万卡规模为例,平均 2 天故障一次,可用度不足 50%,算力资源浪费严重,如何有效提升算力集群利用率提升算力集群利用率是制约 AI 发展的关键挑战。2、金融客户的价值数据往往散落在众多分散的数据中心中,形成了一个个数据孤岛,如何打破数据孤岛,将分散的数据有效利用起来打破数据孤岛,将分散的数据有效利用起来,供给 AI 大模型训练与推理是客户面临的最大挑战。3、大模型开发过程中,为了收集更多的数据训料,需要频
38、繁进行数据跨域搬迁,导致通常数据准备时间在大模型生产全流程中占比超过60%,面对大模型快速发展如何提升数据准备效率提升数据准备效率,避免数据反复搬避免数据反复搬迁迁成为大模型基础设施建设过程中首先要考虑的问题。以某大型银行为例,在 53 年内积累的超 100PB 数据,以及每天实时产生的 300TB数据,分散在多个银行数据中心中存储。如何让分散在不同数据中心的数据流动起来,成为 AI 大模型学习的“历史资料”已成为该银行技术部门最头痛的问题。因此,构建一个高效的数据存储和流通平台,对于 AI 大模型的发展至关重要。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第
39、 24页,共 35页4、从训练到推理是 AI 大模型实现商业闭环的必经之路,目前的金融推理应用存在推理幻觉,经常答非所问,存在知识无法实时更新等问题,应用体验差,且推理成本高,无法帮助企业实现 AI 投入的商业闭环,推理应用的性价比和用户体验推理应用的性价比和用户体验是制约 AI 能否商业变现的关键因素。3.3.3金融 AI 业务场景目标架构AI 数据湖方案是一个数据全局管理,数据存储、编织、管理、流动一体的数据存储解决方案,助力构建企业数据模型新构想,实现AI 大模型更高效,更智能,更符合企业服务要求。它不仅能够实现对企业内部多源异构数据的统一存储和管理,还能够提供高效的数据处理和分析能力,
40、为企业提供全方位的数据服务。通过构建 AI 数据湖,企业可以打破传统数据中心的限制,实现数据的全局可视和高效流动,为 AI 大模型的训练提供源源不断的动力。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 25页,共 35页企业数据要素流通,释放数据价值的必由之路在 AI 数据湖的建设中,数据要素的流通是实现数据价值最大化的关键。可以通过构建全局文件系统,支持多中心数据资产的全局可视,使得企业能够清晰地了解自身数据资源的分布和状况。同时,通过优化数据存储和传输机制,数据可以在多个数据中心之间按需高效流动,为 AI 大模型的训练提供源源不断的数据支持。此外,数据的
41、流通还能够促进私域数据的共享和整合。金融行业的数据具有独特的价值和特征,通过将这些数据进行融合和分析,可以挖掘出更多有价值的信息和规律,这对于提升 AI 大模型的性能和准确性具有重要意义。所以,理想的 AI 数据湖解决方案应具备以下几个核心能力:1、数据全局管理和高效流通:、数据全局管理和高效流通:应支持数据全局管理能力,高效服务于上层 AI 大模型开发与训练,同时能满足企业跨数据中心的数据高效流通;2、高性能高性能:AI 工作负载通常涉及大量的数据处理和计算,因此存储系统需要能够处理混合负载,提供 TB 级吞吐量、亿级 IOPS、ms 级低延迟的性能,以满足模型训练与推理的性能需求;3、大容
42、量以及可扩展性:、大容量以及可扩展性:随着 AI 多模态的发展,AI 模型和数据集越来越大,存储系统需要具备足够的容量来存储这些数据和模型,并且随着需求的增长能够灵活地扩展到 EB 级容量;4、数据韧性和安全数据韧性和安全:AI 数据通常具有很高的价值,因此存储系统必须保证数据的安全性和可靠性,能够抵御硬件故障、数据损坏等风险,金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 26页,共 35页提供数据备份和恢复功能,具备主动预防勒索攻击的能力。对于敏感信息,存储具备安全功能,保护数据不被未经授权的访问与泄露;5、知识实时更新及记忆能力:、知识实时更新及记忆能力
43、:AI 在推理应用场景需要提供大库容RAG 知识库,为大模型增加知识储备,加速行业知识更新;使用 KVCache 等技术使大模型具备长期记忆能力,以查代算,支持长文本能力,最大化利用推理算力资源。6、成本效益:、成本效益:在满足性能、容量和可靠性等要求的同时,存储解决方案应提供合理性价比,数据可以自动分级,根据数据访问频率按需流动,使得 AI 能够在实际场景中广泛应用,发挥更大的数据价值。3.4高可用数据中心底座 两地三中心四副本架构3.4.1金融行业容灾趋势和变化2018 年,某城商行,E 厂商存储单存储故障,导致交易业务停机数小时;2019 年,某银行 N 厂商单点故障导致银行业务,卡交易
44、等系统停机数小时;2021 年,某银行生产中心存储设备因容量扩容操作触发光纤桥接器固件程序缺陷,造成大量磁盘在短时间内出现故障,导致核心交易、柜面等系统停止运行 6 小时;2023 年,某银行 E 产商存储单点故障,导致信用卡、线上支付等系统中断近 4 小时。类似诸多案例为金融行业核心业务系统敲响警钟,业内使用高可用容灾系统承载核心应用逐渐成为共识。同时业内监管逐渐完善,对金融行业业务连续性的要求也日趋具体化、严格化。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 27页,共 35页3.4.2金融行业存储容灾架构业务需求通常,我们对金融行业不同的业务系统类型有
45、不同的 RPO、RTO要求。下表对不同重要性等级(国内以 A+/A/B/C,海外以 Tier1/Tier2/Tier3/Tier4 划分)的业务系统进行分析汇总:业务等级业务系统(以典型的银行的应用划分为例)业务需求RPORTO容灾方式建议关键核心系统、前置、安全平台、柜面、卡交换、统一支付、电子渠道、贷记卡此类系统是金融行业的核心系统,系统中断损失高,实时性强,要求响应快,数据零丢失,系统高可用0 分钟30 分钟本地高可用+同城双活(两地三中心)+备份重要IC 卡、财务总账、客服系统、信贷系统、中间业务此类系统是金融行业的重要系统,系统中断会影响造成较大损失,需要数据极少丢失甚至零丢失,系统
46、恢复快5 分钟4 小时本地高可用+同城主备(两地三中心)+备份次重要批量作业调度、ODS、身份核查、个人征信、企业征信、征信用户管理系统、核心系统报表、涉案账户查控、KMS 密钥管理系统此类系统是金融行业次重要系统,系统中断会造成一定损失,系统可以容忍较少的数据丢失,系统恢复时间短30 分钟24 小时同城主备+备份一般反假币、电子验印支票影像系统、信贷移动办公系统、移动快报、支付密码平台等此类系统是监管和统计分析类系统,系统中断短时间内影响不大,数据可容忍一定的丢失,系统可以一定时间内恢复24 小时37 天备份对于关键/重要业务系统,本地高可用、两地三中心已经逐渐成为业内容灾方案的共识。3.4
47、.3金融行业存储容灾架构本地高可用:本地高可用:金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 28页,共 35页如图所示,当前银行业务系统数据底座通常以本地双活/同步复制/异步确保业务的的本地高可用,在单套存储故障时确保业务连续性。显然,为应对数据中心机房级故障,更高级别的容灾是确保业务连续、稳定的必要手段。两地三中心:两地三中心:以下是两地三中的两种推荐架构:显然,两地三中心能提供更高层级的容灾保护,足以应对数据中心级的灾难:金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 29页,共 35页 多级保护,更可靠:数据 3 副
48、本+本地双活+同城复制+异地复制,本地、同城、异地多级容灾方案提供多层级保护,满足监管要求,本地 RPO=0,RTO 0,同城 RPO=0。多样化,提供多种选择:双活+同步复制方案支持同异步互转,应对同城链路质量问题,提供丰富的容灾方案选择,面向不同容灾需求提供多样性容灾保障。管理便捷:操作部署简便,容灾演练快捷,提供快速容灾切换能力双活方案可平滑升级为 3DC 及四副本方案,业务无感知。3.5数据保护3.5.1金融行业数据保护趋势和变化金融行业以其高度信息化和严格的信息安全标准而著称,近年来,金融行业勒索软件攻击事件不断上升,给金融机构的数据安全带来了前所未有的挑战。不仅严重影响了金融行业的
49、正常运行,更让金融系统的稳定性面临前所未有的考验。这不仅是对金融机构应急响应能力的考验,更是对整个金融行业网络安全防护体系的全面审视。金融安全无小事,任何一环的疏漏都可能引发连锁反应,威胁到整个金融体系的稳定。Veritas 最近的研究发现,金融行业一直是勒索软件阴影下的“高危行业”。此项研究分析了英国富时 100 指数(FTSE100)过金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 30页,共 35页去三年的年度报告。在报告涉及的行业中,金融行业始终被网络威胁所牵动。在过去三年中,金融行业企业年度报告中提及 网络攻击 的次数增加了 55%。同时,勒索软件的
50、提及率从 2020 年到 2022 年上升了 88%。某北美银行于 2020 年遭遇勒索软件 Maze 攻击,被窃取和泄露上千万张信用卡信息;某南美国家银行于 2020 年遭遇勒索软件 Revil 攻击,被迫关闭所有分支机构;某国际保险公司于2021年遭遇勒索软件CryptoLocker攻击,支付 4000 万美元赎金;某巨头保险集团于 2021 年遭遇勒索软件 Avaddon 攻击,被窃取 TB 级别的敏感数据。某银行北美分析机构于 2023 年遭到勒索软件攻击,导致部分系统中断,损失损失或达 90 亿美元。中国数据灾备产业白皮书暨数据灾备建设调研报告 2021指出,尽管金融行业数据备份建设
51、比例名义上达到约 92%,但技术架构分析显示,普遍缺乏数据防勒索措施。异地备份的比例只有约 10%,本地备份的完备性也不足:只备份了关键的核心数据库应用,其他非核心的数据库应用和非结构化数据基本未备份。整体行业情况如下:金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 31页,共 35页灾备系统建设水平不一灾备系统建设水平不一:区域发展差异及金融机构实力的不均,导致灾备系统的建设水平参差不齐。大中型金融机构在灾备体系建设方面相对成熟,而中小金融机构则普遍存在建设不足的问题。金融行业面临的勒索病毒等网络攻击风险日益严峻,缺乏系统性的安全防护。灾备系统的低效利用灾备
52、系统的低效利用:每个生产系统配备相应的备份系统,正常运行时备份系统并不承载生产业务,同时传统备份恢复技术的也无法满足生产业务的利用诉求,导致备份相关资源投入大量闲置。3.5.2金融行业备份业务需求对金融企业而言,应用系统的可靠性、可用性保障的重要性永远是第一位的,全行业都会把业务连续性及灾备建设作为 IT 运营工作的重中之重。金融行业灾备建设通常包括存储、计算和网络的设计,目前金融行业主流的灾备建设方案为以存储产品为核心实现灾备建设。建设总体原则是根据不同应用对性能和容灾的诉求进行存储选型,按 A+、A、B、C 等四类应用的业务重要性及对 RPO、RTO 不同要求,参照以下原则对备份系统进行改
53、造。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 32页,共 35页在整个灾备系统实现全栈国产化的基础上,数据备份系统按照“32110”原则规划建设:1、3 个物理独立分离的副本;2、采用 2 种不同的介质:磁盘/磁带/对象存储,支持备份数据的冗余性;3、至少有 1 份离线副本,放在同城/异地站点;4、有 1 份隔离区的副本和防篡改技术保护,例如:WORM 和安全快照;5、恢复 0 报错:通过勒索病毒检测,对备份副本做侦测分析,保障备份数据的安全及可恢复性。3.5.3金融行业备份目标架构金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁
54、止扩散第 33页,共 35页采用备份一体机实现,归档介质短期内继续沿用磁带库或采用对象存储,整体架构如上图。1、新购的备份一体机替换原有的备份系统,实现数据中心(生产)数据库、虚拟化、文件和云平台的本地备份,将备份数据归档到磁带库长期留存;2、备份一体机参考原有的复制策略,把备份数据分别复制到数据中心(同城)和数据中心(异地)。业界对于原有备份系统的备份数据迁移有如下三类选择:1、割接:针对保留时间短的数据,使用备份一体机替换现有的备份系统,原有备份系统的备份数据自然过期;2、转储:备份一体机替换现有备份系统后,针对备份系统长期留存的数据,需要将原有备份系统的备份通过测试环境恢复后转储到备份一
55、体机中进行保留。3、复制:备份一体机可以提供备份空间,把该备份空间挂载给原有的备份软件,通过备份软件把备份数据从备份存储中复制到备份一体机的空间中留存。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 34页,共 35页方案推荐原则:1、备份保留周期小于 1 年的数据,如虚拟化、文件等进行割接;2、备份保留超过 1 年以上的数据,如 DB2 数据库进行转储或复制。方案价值:1、采用备份一体机方式,管理维护和扩容简单;2、架构扁平化:由传统的“客户端-备份服务器-备份存储”三层架构优化为“客户端-备份一体机”的两层备份架构3、通过数据防篡改、侦测分析及后续上线的 Air Gap 安全隔离区等技术,在存储侧应对勒索病毒攻击时,实现可预防、可感知、可恢复,助力数据安全的韧性能力。金融数据中心存储顶层架构白皮书2024-9-29华为保密信息,未经授权禁止扩散第 35页,共 35页4结语结语金融行业数字化、智能化进程不断深入,高可靠高可用的数据存储架构将持续为业务连续、稳定提供保障。