《专场17.3-快狗打车实时数仓演进之路-杨铮.pdf》由会员分享,可在线阅读,更多相关《专场17.3-快狗打车实时数仓演进之路-杨铮.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、快狗打车实时数仓演进之路杨铮 快狗打车 数据负责人订单用户运力流水业务线N端流量应用广告货的企业 业务复杂度高流量大应用场景多对实时数据需求多开发时长存在问题 业务背景1.以往的开发流程和实时计算历史开发流程历史实时计算2.从上云开始转变spark+多源存在诸多问题2019上云完成OneDataOneService2020智能化系列20223.解决痛点摆脱混乱开发,建设分层模型,数据重复利用。采取实时=离线的方案ODS:基础数据层,在实时仓库,ODS数据层在消息中间件:kafkaDWS:服务数据层,作用为数据脱敏,轻汇。在业务上应用于分析,数仓进行数据查询补充。在实时仓库,DWS数据层在消息中
2、间件:kafka或者OLAP系统。DWF:事实数据,即宽表所在。该层次数据主要为三种类型宽表建设,用于日常分析洞察,数据查询等。在实时仓库,DWF数据层在消息中间件:kafka或者OLAP系统。DWA:高度汇总数据,沉淀指标数据。在实时仓库,DWA数据层在OLAP系统。DIM:维度数据。分为不同类型存于Redis和Mysql模型升级-分层模型引擎对比SparkFlink数据处理微批批/流处理SQLSpark SQLTable&SQL API容错WAL算法Chandy-Lamport算法成本开发成本高开发成本低优化手动自动语言Scala,Java,PythonJava,Scala,Python,
3、SQL窗口定时时间,计数延迟秒亚秒RDS:主要为Binlog订阅,添加中间处理,统一数据格式日志日志:各个端上的日志传输,统一规范,日志中心格式处理ODS-格式预处理数据一键集成Flink SQL读取kafka数据源格式固定,可变的是topic参数和读取位点,group等;创建视图,利用核心UDF统一离线和实时Schema信息,任务启动阶段进行校验两方的shcema信息(类型,名称等),严格一致多流处理阶段,一般无法定制模板,需要注意state,资源等输出阶段,分为输出至OLAP,Mysql,Kafka。输出至Kafka利用核心UDF固定格式。数据流入和流出阶段,进行严格的格式控制,利用通用模
4、板提高效率,同时保持数据流入和流出阶段,进行严格的格式控制,利用通用模板提高效率,同时保持离线实时一致。离线实时一致。开发模板参数化配置仅需传入离线日志表,任务自动获取离线任务所有信息,自动配置到实时任务自动创建自动创建topic,初步清洗好的日志数据自动传入topic,并且优化格式资源优化内部核心为任务清洗程序,配置后台根据任务资源,日志数据切分任务010203日志处理主存储系统的演进Hologres当前主要使用的HOLAP系统。PB级别,支持高并发Ad HocHbase+ESHbase存储数据+ES构建加速查询索引ADB云原生数据仓库,同时也是即席分析平台支持存算分离,动态扩展,高并发等H
5、ologres共享存储故障隔离读写分离权限可控Hologres-实时+离线联邦查询,实时和离线数据混合使用统一数据出口,无论是即席分析还是实时接口查询等,数据出口均在Hologres4.应用应用接口Http接口灵活性高,可拓展性强表映射形式解耦,无感知变更接口监测响应时长,ip,查询频率等进行资源监控平台一站式开发内部研发的接口管理平台,上线接口从测试到上线达到分钟级别慢查询监控慢查询及时监控预警接口接口配置为SQL开发,测试之后自动生成接口id,分钟级别上线。目前接口规模300+,平均查询时长在毫秒级别。接口开发平台风控应用构建出1个实体表和8个关系表指标预警自定义规则定制实时预警和离线预警方式目前支持SQL和指标形式进行监控小时级别和天级别的预警智能预警形式结合算法,自动测算,实时预警OneData-指标管理实时指标和离线指标统一管理平台;指标血缘,版本等各种管理功能。无论实时或者离线指标,首先是指标管理平台收录,再进行三方嵌入使用整体架构未来一套系统一个逻辑流批一体智能营销动态规则展望