《蔚来李宇彬-基于 Paimon 的实时湖仓实践.pdf》由会员分享,可在线阅读,更多相关《蔚来李宇彬-基于 Paimon 的实时湖仓实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、基于 Paimon 的实时湖仓实践演讲人:李宇彬 资深工程师蔚来实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture01引擎底座实践及增强Engine Practice&Enhancement02平台化体系建设Platform Construction03未来规划Work Plan04目 录CONTENTS实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture业务背景主数据营销社
2、区服务用数字点亮未来销售APP客服决策实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture传统数仓-存储与计算引擎耦合,易形成数据孤岛-技术栈复杂,开发维护成本高-实时数仓存储成本高,且中间数据不可查,难复用-离线数仓对事务、行级更新的支持度差-社区活跃度相对较低,bugfix、新特性支持慢痛点-支持partial-update、deduplicate等策略-支持丰富的cdc入湖功能,能向下游产生changelog存储存储层层流式语义,流式语义,减负计算减负计算-作为近实时kv存储进行lookup-作为消息队列进行流读流写-自动管理小文件
3、合并技术栈精简技术栈精简,降本增效降本增效-发起于国内,业务场景贴合,沟通无障碍-社区响应需求和迭代功能的速度快社区活跃高效社区活跃高效实时湖仓架构的演进Evolution of Real-Time Lakehouse ArchitecturePaimon 实时湖仓数据新鲜度:分钟级流批一体流批一体-LSM 架构高吞吐低时延,支持点查,支持数仓分层,流批一体存储-脱胎于实时引擎标准 Flink,流批一体计算高速高速 OLAP OLAP 查询查询-主键、列存、统计信息-zorder/hilbert聚簇-bloomfilter/bitmap索引-计算与存储解耦-支持事务-支持行级更新湖仓特性湖仓特
4、性实时湖仓架构的演进Evolution of Real-Time Lakehouse ArchitecturePaimon 实时湖仓引擎底座实践及增强E n g i n e P r a c t i c e&E n h a n c e m e n t引擎底座实践Engine Practice&Enhancement桶策略优化桶是读写的最小存储单元,会直接影响到读写性能引擎底座实践Engine Practice&Enhancement引擎底座实践Engine Practice&Enhancement引擎底座实践Engine Practice&Enhancement数据订正发生任务逻辑错误、运行异常
5、时,需要订正数据-CALL sys.create_branch(default.T,branch1,tag1);-CALL sys.fast_forward(default.T,branch1);手动订正1.批写入默认分支,流写入stream分支2.scan.fallback-branch=stream3.批读当前分支时,若缺少分区会自动回退到stream分支限制条件:分区表;批读周期离线订正引擎底座实践Engine Practice&Enhancement任务迭代业务场景中会遇到需要修改逻辑或升级paimon版本的情况consumer-id=myid安全读取断点续传consumer.expi
6、ration-time=1 d防止数据无限膨胀逻辑迭代-从下游开始升版本-0.8升到0.9后,显式指定 file.format版本迭代引擎底座实践Engine Practice&Enhancement数据打宽数据打宽广泛存在于数仓业务场景1.cache:模式:auto:仅支持主键关联场景,按需加载缓存,资源消耗少,初始化更快;full:将数据全部load到rocksdb,初始化慢,支持场景多配置:lookup.continuous.discovery-interval 刷新间隔 lookup.cache-max-memory-size 缓存上限2.延迟重试:维表在一段时间的延迟更新,重试后被主