《6-4 基于数据湖技术的近实时场景实践.pdf》由会员分享,可在线阅读,更多相关《6-4 基于数据湖技术的近实时场景实践.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、基于数据湖技术的近实时场景实践马汶园 抖音电商实时数仓 大数据工程师01数据湖技术特性02近实时技术架构03电商数仓实践04未来挑战与规划目录 CONTENT数据湖技术特性01Hudi 的基本特性Hudi不是 数据湖的一种存储,或Table Format。而是提供了Streaming 流式原语的、具备数据库、数据仓库核心功能(高效upsert/deletes、索引、压缩优化)的数据湖平台。Hudi 支持 各类计算、查询引擎(Flink、Spark、Presto、Hive),底层存储兼容各类文件系统(HDFS、Amazon S3、GCS、OSS)其 Timeline Service机制对数据版本
2、进行管理,实现了数据近实时增量读、写。其 Merge on Read/Copy on Write 两种 表类型+Read Optimized/Real Time 两种Query模式可供用户 在海量的低加工的数据之上 做“数据实时性、查询实时性上”的灵活选择。字节数据湖优势字节数据湖:基于 Apache Hudi 深度定制、适用商用生产的数据湖存储方案打通多种引擎:Flink、Spark、Presto,支持streaming、batch计算。为 实时、离线计算打通 与 数据共通 提供桥梁新增:多源拼接功能,简化join操作。对多数据源、集市型数据集构建友好。良好的元数据管理;索引实现;行/列存并
3、用的存储格式 为 高性能读写提供坚实基础。提供 upsert、append两种数据更新能力;支持read optimized、real time两种query模式。对用户使用友好。近实时技术架构02近实时场景特点抖音电商-“内容电商”,直播、短视频等信息流的时效性非常高。需要当日捕捉业务变化、当日进行决策分析。使得 近实时数据需求日益增多。面向分析型需求特点:u需求量大;要求响应速度快u多视角、多维度;实验性强、临时调整多;跨数据域关联u不直接嵌入产品功能 或 业务流程,对 延迟、质量的SLA容忍度高u故从数据研发角度需要 以 低廉的开发成本、计算成本、存储成本进行支持数据湖技术的适用性流批结
4、果复用流批结果复用u流计算可利用批计算的结果解决:历史累积结果、数据冷启动、数据回溯等问题。u批计算可利用流计算的结果:将次日凌晨的一次性大数据量批量计算,转为:利用流计算当日的增量的更新结果,从而提高离线数据的产出时效性。l实时计算实时计算-存储统一存储统一u通过将ods、dwd较为上游的数仓层次的数据入湖,并将加工dws、dwm、app层的计算放在湖内,从而把实时计算的“中间数据”、“结果数据”都落入数据湖中,做存储上的统一。l计算链路简化计算链路简化u对于“数据融合”的问题,数据湖可以基于“多源数据拼接”功能,减少join操作,简化数据链路。u对于“离线维表”导入问题,可直接复用离线结果
5、。近实时架构方案在特定场景下,兼顾时效性与数据复杂度技术成熟稳定、数据丰富、可应对复杂逻辑 时效性低(天级/小时级)时效性高(秒级)开发成本、稳定性低、复杂度有限离线批计算实时流计算近实时计算(寻求中间态,优势互补)近实时架构方案演进近实时架构方案演进电商数仓实践03电商数仓实践分析型场景营 销 大 促流 量 诊 断物 流 监 控风 险 治 理运维型场景数据产品异动监控实时消息落盘检测3.1 分析型场景实践-营销大促业务场景与特点数据解决方案业务需求业务需求:大促招商、资源提报 信息 当日分析,当日决策场景特点场景特点:数据本身变更频率不高(小时级);一段周期(5-15天)至今的累积值统计T-
6、1 周期内全量实时流入湖T 增量小时级定时调度计算,合并增、全量数据近实时分析决策对实时增量数据与离线全量数据进行湖内合并,既解决了【纯实时方案】维护大状态稳定性差的问题,又解决了【纯离线方案】时效性低的问题3.1 分析型场景实践-流量诊断业务场景与特点数据解决方案业务需求业务需求:对推荐系统的召回各阶段做流量监控,为系统提供策略优化建议;为商家流量获取做改善;为运营排查case提效。场景特点场景特点:数据量极大,单条事件,无业务主键;常看时间窗口的趋势性指标;流量数据源实时增量入湖non_index 表appen