报告预览

《美团增量湖仓Beluga的架构设计与业务实践》.pdf

编号：624458

PDF 23页 2.91MB 下载积分：VIP专享

下载报告请您先登录！

《美团增量湖仓Beluga的架构设计与业务实践》.pdf

1、美团增量湖仓Beluga的架构设计与业务实践2025.03.29 北京快元中王萌萌美团数据湖架构团队负责人典型场景2.Beluga的架构与设计3.业务实践4.未来计划1.典型场景-ODS数据入湖 ODS数据语义：全量表、快照表、增量表占存储可同时存在，物理上相互独立 workload特征：增量数据:存量数据=1:几百keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00keyvaluectimek1v120250

2、322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v32025032

3、3 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324快照表全量表增量表典型场景-长周期历史数据更新问题：少数长尾数据的更新，需要对全量数据进行读写，IO放大严重，资源浪费典型场景-流批一体的生产业务数仓的子链路迁移至湖生产全局看同时存流、批下游核设计思路ODS数据入湖MOR，一表三模式长周期历史数据更新基于ChangeLog的计算流批一体的生产兼顾流批共存的读写负载典型场景2.Beluga的架构与设计3.业务实践4.未来计划1.架构概要基于Hudi 0.12，复用TimeLin

4、e设计存储底座：HDFSFileLayout：两层分桶设计，面向流、批不同负载独立的MetaServer服务：维护Timeline、Instant、Bucket等组织关系管理compaction、clean等表服务引擎生态：Flink、Spark、PrestoBeluga的设计-ODS场景一表三模式：基于某时间字段计算数据所属的时序分区分区数据存在继承关系分区创建时记录timeline上界查询时，按需求的语义选择timeline区间，即下界，进一步完成数据的组织增量数据占比少：MOR，减少IO放大有序数据结构：LSMTreeBaseFileLogFile1LogFile3dt=2024

5、1103BaseFileLogFile1dt=20241102RepairFiledt=20241101全量表快照表增量表LogFile3dt=20241103LogFile1dt=20241102LogFile0dt=20241101BaseFileLogFile1LogFile3LogFile2LogFile2LogFile2dt=20241101BaseFileLogFile0RepairFiledt=20241102LogFile1dt=20241103LogFile2LogFile3timelinedelta commitmajor compactdelta commitdelta

6、commitrepair commitBeluga的设计-ODS场景Beluga的设计-流批下游共存的兼容两级分桶：L0：面向流读流写，HFile，参与批读MORL1：面向批读批写，Parquet动态调整分桶数：计算compact同时计算是否需要rescale分桶数量；流读写：在compact提交后的新事务中，按新L0分桶组织文件，业务可按需调整作业并发；批读写：rescale后启动的批作业应用新的L1分桶数量作为并发Checkdone：标记数据就绪，启动下游批任务调度FileGroup00219-1FileGroup1219220-1FileGroup

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（《美团增量湖仓Beluga的架构设计与业务实践》.pdf）为本站（Flechazo）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。