蔚来李宇彬-基于 Paimon 的实时湖仓实践.pdf

编号:624573 PDF 31页 3.58MB 下载积分:VIP专享
下载报告请您先登录!

蔚来李宇彬-基于 Paimon 的实时湖仓实践.pdf

1、基于 Paimon 的实时湖仓实践演讲人:李宇彬 资深工程师蔚来实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture01引擎底座实践及增强Engine Practice&Enhancement02平台化体系建设Platform Construction03未来规划Work Plan04目 录CONTENTS实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture业务背景主数据营销社

2、区服务用数字点亮未来销售APP客服决策实时湖仓架构的演进Evolution of Real-Time Lakehouse Architecture传统数仓-存储与计算引擎耦合,易形成数据孤岛-技术栈复杂,开发维护成本高-实时数仓存储成本高,且中间数据不可查,难复用-离线数仓对事务、行级更新的支持度差-社区活跃度相对较低,bugfix、新特性支持慢痛点-支持partial-update、deduplicate等策略-支持丰富的cdc入湖功能,能向下游产生changelog存储存储层层流式语义,流式语义,减负计算减负计算-作为近实时kv存储进行lookup-作为消息队列进行流读流写-自动管理小文件

3、合并技术栈精简技术栈精简,降本增效降本增效-发起于国内,业务场景贴合,沟通无障碍-社区响应需求和迭代功能的速度快社区活跃高效社区活跃高效实时湖仓架构的演进Evolution of Real-Time Lakehouse ArchitecturePaimon 实时湖仓数据新鲜度:分钟级流批一体流批一体-LSM 架构高吞吐低时延,支持点查,支持数仓分层,流批一体存储-脱胎于实时引擎标准 Flink,流批一体计算高速高速 OLAP OLAP 查询查询-主键、列存、统计信息-zorder/hilbert聚簇-bloomfilter/bitmap索引-计算与存储解耦-支持事务-支持行级更新湖仓特性湖仓特

4、性实时湖仓架构的演进Evolution of Real-Time Lakehouse ArchitecturePaimon 实时湖仓引擎底座实践及增强E n g i n e P r a c t i c e&E n h a n c e m e n t引擎底座实践Engine Practice&Enhancement桶策略优化桶是读写的最小存储单元,会直接影响到读写性能引擎底座实践Engine Practice&Enhancement引擎底座实践Engine Practice&Enhancement引擎底座实践Engine Practice&Enhancement数据订正发生任务逻辑错误、运行异常

5、时,需要订正数据-CALL sys.create_branch(default.T,branch1,tag1);-CALL sys.fast_forward(default.T,branch1);手动订正1.批写入默认分支,流写入stream分支2.scan.fallback-branch=stream3.批读当前分支时,若缺少分区会自动回退到stream分支限制条件:分区表;批读周期离线订正引擎底座实践Engine Practice&Enhancement任务迭代业务场景中会遇到需要修改逻辑或升级paimon版本的情况consumer-id=myid安全读取断点续传consumer.expi

6、ration-time=1 d防止数据无限膨胀逻辑迭代-从下游开始升版本-0.8升到0.9后,显式指定 file.format版本迭代引擎底座实践Engine Practice&Enhancement数据打宽数据打宽广泛存在于数仓业务场景1.cache:模式:auto:仅支持主键关联场景,按需加载缓存,资源消耗少,初始化更快;full:将数据全部load到rocksdb,初始化慢,支持场景多配置:lookup.continuous.discovery-interval 刷新间隔 lookup.cache-max-memory-size 缓存上限2.延迟重试:维表在一段时间的延迟更新,重试后被主

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(蔚来李宇彬-基于 Paimon 的实时湖仓实践.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠