《2-6 邹普-大数据在微众银行数据管理和应用方面思考和实践.pdf》由会员分享,可在线阅读,更多相关《2-6 邹普-大数据在微众银行数据管理和应用方面思考和实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、大数据在微众银行数据管理和应用方面思考和实践日期:2023年03月31日演讲人:微众银行邹普目录0102030405背景介绍微众银行大数据IT架构实时大数据应用面临的困惑和实践探索离线大数据管理和应用方面探索和实践未来规划背景介绍1.1 数据增长趋势Global2018年约33ZB2025年约175ZB内容来源:IDC数据时代2025China2018年约7.6ZB 23.4%2025年约8.6ZB 27.8%全球数据圈规模(2010-2025)应用潜力大客户管理风险控制智能预测数据质量高 一致性要求高 容错率低下 准确度要求高数据量大 如银行业每100万美元收入实际数据量约820GB 金融交
2、易数据线上化占比日趋增多结构化数据突出 客户数据 交易数据 行为数据1.2 金融数据的特点1.3 银行大数据技术愿景质量效率成本微众银行大数据IT架构2.1 微众银行大数据IT架构关系型数据库非关系型数据库数据文件消息数据交换批量计算交互式计算实时计算复杂计算数据存储Hive on hadoopSparkSqlMapReduceSpark StreamingStormFlink复杂计算CPU复杂计算GPU日志平台工具数据工具应用工具功能平台数据治理数据安全运营管理数据报表数据分析反洗钱用户画像精准营销个性推荐监管报送数据归档存款平台应用贷款平台应用其他应用企同平台应用科管平台应用消金平台应用T
3、base/TIDBES文件存储Hadoop HDFSHBASE共享存储Spark ThriftserverSpark SQLTbase/TiDBHbasePhoenix on HbaseKylin存款平台应用准实时同步APP准实时BINLOGKAFKA集群KAFKA集群统一抽数数据仓库HBAE集群(主)HBAE集群(备)查询系统查询系统分布式联机系统分布式联机系统IDC多活APPBDP2.2 核心大数据架构实时大数据 金融系统高可用要求 集群一致性单IDC风险 Gc 合并 热点服务稳定性差 易接入 易运营/维护接入开发繁琐13.1 实时查询面临的痛点23初始阶段 实时集群Hbase和跑批共用h
4、dfs 业务混用实时hbase集群集群拆分 部门/科室 业务场景进程剥离 RS拆分 GC参数调优010302跨集群多活 应用多活改造 大数据服务治理043.2 平台HBASE的优化历程主集群备集群其他集群多读多写Client-metric规则引擎规则指标搜集运行状态报告健康监听连接器连接器连接器McBase操作平台元定义元校验元应用hive外表随机校验表全校验资源隔离资源限制资源监控连接器Meta统计模块连接器组资源管理3.3 跨集群多活整体方案稳定性便捷性T0T1融合游标分页通用SDKD1列簇D0列簇COL1COL2COL3COL4COL5COL1COL2COL3COL4COL5ROWROW
5、ROWROWROWROWROWROWROWROWROWROWROWROW第1页第2页T日分界3.4 实时查询应用实践之性能D0/D1列簇COL1COL2COL3COL4COL5ROWROWROWROWROWROWROWROWROWROWROWROWROWROWT日分界内存分页游标分页AfterBefore3.5 实时查询应用实践之元数据HIVE数据仓库DB online sourceDatabaseDatabase.客户端Online系统数据清洗业务数据T0数据HBASESpark StreamingSpark EngineRMB(RPC)调用核心T0数据入库HBASEDB:TDSQLDB:T
6、DSQLDB:TDSQLRowkey规则列簇column读取校验应用读取校验应用读取校验应用联机系统服务元数据模型定期巡检T0准实时T1推数T0 RMB实时调用配置中心大数据查询系统大数据查询系统自动代码生成Hbase元数据中心SPARK STREAMING离线大数据研发质量差任务依赖紊乱数据繁杂人力投入成本高 解释性脚本语言特性 流程难约束 任务作业多,回归效率慢 依赖血缘评估准确度低 跨条线、部门依赖多 数据管理难度大 数据处理投入多 工具化缺乏4.1 离线大数据管理和应用破局之道研发标准任务重塑数据管理工具/平台化 研发流程 开发框架 回归测试 风险评估 数据模型 数据质量把控 数据提取