1、企业级大数据体系规划、建设与思考 2024年 7月 n 股东构成n 业务趋势信息系统信息系统发展历程发展历程资产:57亿交易数:1093万资产:146亿交易数:3825万资产:206亿交易数:1.1亿资产:350亿交易数:1.89亿资产:410亿交易数:3.4亿资产:490亿交易数:4.58亿分析系统与交易系统分离数据量增长,使用MPP支持分析系统租赁费用高,部署私有MPPOLTP历史数据迁移,读写分离许可证费用高,部署多套私有MPP;使用数据总线,提升传输效率,提供升维数据数据大量复制、重复存储,存储资源浪费,处理时间长,任务效率低,需要建设统一存储;计算资源利用率低,需要构建存算分离架构体
2、系;OLTP单元化建设,多机房部署,数据总线支持跨机房数据同步;数据总线支持OLTP应用实时数据同步数据流体系数据流体系-数据流向数据流向升维库大数据应用架构大数据应用架构目标目标MPP应用系统1应用系统nOLTPQuickBIOLAPHue分析应用API1n数据采集数据传输数据查询日切加工流式发布批量发布数据总线数据仓库ODSSDMFDMSSS数据集市1数据集市n数据库日志流基础数据HDFS热数据区冷数据区风控集市HDFSCDHMPP云上Hbase云上HDFS风控应用flinkkafka数据传输过程出现异常,可能造成数据缺失,问题发现不及时,数据回溯成本高核心系统数据传输工具数据仓库数据抽取
3、数据写入机房A监控报送集市数据抽取机房B目标:通过建立流式和文件两种数据抽取方式建立低成本数据核对机制,及时发现数据缺失问题,并提高效供数据回溯机制;问题1:无法实现低成本数据核对和数据回溯场景:场景:监管报送场景下需要数据变动明细生产系统中客户信息一天内多次变更则需要报送每次的状态,但生产系统没有保存每次的变更信息,只能靠每日批量获取日终最后一次状态目标:非侵入、低成本方式保留生产系统中实体数据的变动明细(获取实体数据流量)案例:时间时间交易交易客户地址客户地址1点新建客户A开心小区1号楼1013点客户A地址变更开心小区1号楼1024点客户A地址变更开心小区2号楼1028点客户A地址变更开心
4、小区1号楼202日终数据客户地址为“开心小区1号楼202”,前面三条数据已查询不到数据总线中对应实体的变动明细生产库实体信息时间t2t1t3t4操操作作时时间间操作操作类型类型客户客户号号客户地址客户地址t1IC001开心小区1号楼101t2UC001开心小区1号楼102t3UC001开心小区2号楼102t3UC001开心小区1号楼202数据总线客户信息流量客户号客户号客户地址客户地址C001开心小区1号楼202生产系统客户信息表问题2:无法获取生产数据库中的实体数据变动明细开心小区1号楼101开心小区1号楼102开心小区2号楼102开心小区1号楼202表1表2表3t5场景:受资源限制,抽取任
5、务无法按时启动;即使抽取任务按时启动,数据库执行时点也可能偏差目标:时间数据表表1表2表3时间数据表表1表2表3t1t2t1t2通过抽取数据流量,使用数据时间,获取精准时点增量数据,再与之前的全量合并为精准时点的全量,以保证多表数据一致t3t4表1表2表3结果:表表1表表2表表3t2t3t5t0t3问题3:无法抽取精准的时点数据,不能保证多表数据一致结果:表表1表表2表表3t1t1t1场景:交易系统724运行,无法获取精准日切数据目标:通过抽取数据流量,使用交易完成时间精准获取日切数据交易系统还款计划表账务系统还款计划表时间数据表T+1日0:0:0T日23:59:55T+1日0:0:5还款交易
6、1还款交易2T+1日0:0:10账务系统同步还款计划还款交易1问题4:无法获取跨系统精准日切数据,不能保证多表数据一致交易系统还款计划表账务系统还款计划表时间数据表T+1日0:0:0T日23:59:55T+1日0:0:5还款交易1还款交易2T+1日0:0:10账务系统同步还款计划还款交易1数据总线产品核心能力数据总线产品核心能力数据总线数据总线是一款通过源系统数据库更改记录采集数据变动数据变动,并存储数据变更明细数据变更明细,提供流式、批量(全量、增量、数据变动明细)的高效可靠高效可靠的数据传输工具数据传输工具。接