《金融级实时数仓建设实践.pdf》由会员分享,可在线阅读,更多相关《金融级实时数仓建设实践.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20232023金融级实时数仓建设实践马年圣-蚂蚁集团-实时数仓架构师蚂蚁实时数仓架构实时数仓架构设计实时数据解决方案流批一体应用流批一体能力构建流批一体场景应用实时数据质量保障面向研发过程的任务级监控面向数据链路的全链路监控数据湖落地展望数据湖落地展望目录 CONTENTDataFunSummitDataFunSummit#2023202301蚂蚁实时数仓架构蚂蚁实时数仓架构背景引擎平台资源资产工具质量选择引擎选择平台申请资源口径copy代码开发任务测试任务上线报警配置任务运维可优化点引擎特性语法函数开发生态运维问题平台能力参差不齐多平台
2、运维任务散布多平台用户实时开发心智平台任务迁移问题计算资源申请和管理存储资源的管理计存资源和项目域的关系存储计算资产复用性问题逻辑表更同步问题重复解析的资源浪费口径对齐问题开发效率问题代码开发提效数据验证提效任务压测效率任务执行计划配置任务稳定性监控数据时效监控数据内容监控全链路监控事中的应急处理!实时开发链路围绕实时研发流程和能力,定义其中的关键问题,进行实时数仓和架构的建设什么是实时资产?APISDKCLTIDE客户端接入层HTTP Server云账号服务SQLPlannerWorkerWorkerSchedulerExecutorExecutor逻辑层MetaStore(OTS)MR J
3、obSQL JobPanguFuxi存储/计算层DataStreamRuntime计算层DataSetTable Api语义层SQLOb存储层ExplorerHbaseSLSConnector DDL?ODPSFlink元表定义元表消费元表管理实时元表实时资产=内容定义生产体系消费体系资产管理元表质量唯一性校验强Schema规范性治理配置复用资产主题资产目录资产搜索元表权限元表血缘流批一体自动化研发内容校验时效性校验蚂蚁实时数仓架构物理表实时数据分析(OLAP)实时数据集定义实时报表配置数据应用接入实时数据服务(OLTP)实时接口定义资产元数据打通实时标签服务 实时保障计算开发层存储层FLIN
4、K数据源线上日志数据库日志实时消息DQC质量巡检异源数据比对主备一致性监控场景基线保障任务运行监控数据服务层ODPS元表引擎层低代码研发流批一体核心资产资产即服务资产定义资产沉淀资产复用资产规范统一资产服务资产消费血缘资产搜索资产合规管控计算逻辑定义开发模式复用实时任务生成通用能力沉淀计算逻辑一致开发效率提升解决方案拓展数据保障增强数据源定义物理表定义字段定义SLSEXPLORERHBASE实时压测系统诊断系统实时计算解决方案-关联类数据计算用户流量埋点转化事件user1user1user1user1trans1log1log3trans4trans5trans6log5trans2log2t
5、rans3log4log7log6log8用户流量埋点转化事件user1user1user1user1trans1log1log3trans4trans5trans6log5trans2log2trans3log4log7log6log8log1log2log3log4log5log6log7log8trans1user1user_idlog_timespmtrade_no trade_time trade_amt user12021-12-0511:57:00a1.b1.c1.d1 trade12021-12-0512:00:00 100.0user12021-12-0511:57:30a2
6、.b2.c2.d2 trade12021-12-0512:00:00 100.0user12021-12-0511:59:00a6.b6.c6.d6 trade12021-12-0512:00:00 100.0user12021-12-0511:59:30a7.b7.c7.d7 trade12021-12-0512:00:00 100.0user12021-12-0511:59:45a8.b8.c8.d8 trade12021-12-0512:00:00 100.0路径筛选拓扑构建其他解决方案:端上进行流量日志的串联、数据湖准实时构建基础解决方案:双流Join、维表关联图计算方案实时计算解决方