王萌萌-美团增量湖仓Beluga的架构设计与业务实践.pdf

编号:624558 PDF 21页 1.25MB 下载积分:VIP专享
下载报告请您先登录!

1、演讲人:王萌萌 美团数据湖架构团队负责人美美团增量湖仓团增量湖仓Beluga的架构的架构设计与业务实践设计与业务实践DataFunSummit 2025典型场景Typical Scenarios01Beluga的架构与设计The Architecture and Design of Beluga02业务实践Business Practice03未来计划Work Plan For Future04目 录CONTENTSDataFunSummit 2025典型场景典型场景-ODS数据入湖 ODS数据语义:全量表、快照表、增量表 可同时存在,物理上相互独立,各占存储 workload特征:增量数据:

2、存量数据=1:几百keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324keyvaluectimek1v120250

3、322 12:00:00k2v220250322 13:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324快照表全量表增量表典型场景-长周期历史数据更新 问题:少数长尾数据的更新,需要对全量数据进行读写,IO放大严重,资源浪费典型场景-流

4、批一体的生产 业务数仓的子链路迁移至湖生产 全局看同时存在流、批下游123ODS数据入湖长周期历史数据更新流批一体的生产核心设计思路MOR,一表三模式基于ChangeLog的计算兼顾流批共存的读写负载Beluga的架构与设计架构概要存储底座:HDFSFileLayout:两层分桶设计,面向流、批不同负载独立的MetaServer服务:维护Timeline、Instant、Bucket等组织关系管理compaction、clean等表服务引擎生态:Flink、Spark、PrestoBeluga的设计-ODS场景一表三模式:一表三模式:基于某时间字段计算数据所属的时序分区分区数据存在继承关系分区

5、创建时记录timeline上界查询时,按需求的语义选择timeline区间,即下界,进一步完成数据的组织增量数据占比少:增量数据占比少:有序数据结构:LSMTreeMOR,减少IO放大BaseFileLogFile1LogFile3dt=20241103BaseFileLogFile1dt=20241102RepairFiledt=20241101全量表快照表增量表LogFile3dt=20241103LogFile1dt=20241102LogFile0dt=20241101BaseFileLogFile1LogFile3LogFile2LogFile2LogFile2dt=20241101

6、BaseFileLogFile0RepairFiledt=20241102LogFile1dt=20241103LogFile2LogFile3timelinedelta commitmajor compactdelta commitdelta commitrepaircommitBeluga的设计-流批下游共存的兼容两级分桶:L0:面向流读流写,HFile,参与批读MORL1:面向批读批写,Parquet动态调整分桶数:计算compact同时计算是否需要rescale分桶数量;流读写:在compact提交后的新事

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王萌萌-美团增量湖仓Beluga的架构设计与业务实践.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠