《蚂蚁基于Paimon数据湖实践.pdf》由会员分享,可在线阅读,更多相关《蚂蚁基于Paimon数据湖实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024蚂蚁基于蚂蚁基于PaimonPaimon数据湖实践数据湖实践闵文俊-蚂蚁集团-技术专家自我介绍毕业于南京理工大学,毕业后一直从事大数据方向的工作.目前在蚂蚁负责Flink实时计算和数据湖相关的开发工作.应用场景应用场景未来规划未来规划目录目录 CONTENTCONTENT功能改进功能改进PaimonPaimon介绍介绍DataFunSummitDataFunSummit#202420240101PaimonPaimon介绍介绍什么是Paimon?什么是Paimon?实时更新 LSM Tree Changelog Produc
2、er Merge Engine流批一体 支持流读 支持批读 支持Time travel 支持维表点查 全增量一体消费OLAP友好 列式存储 Manifest Statistics Z-Order丰富生态 Hive Flink Spark Trino Presto Starrocks Doris DataFunSummitDataFunSummit#202420240202业务场景业务场景长周期去重累计长周期去重累计极速核对极速核对实时宽表构建离线查询加速1.小时分区周期性Sort Compaction2.BloomFilter 索引难点:1.数月历史数据回溯2.响应时效要求高DataFunSu
3、mmitDataFunSummit#202420240303功能改进功能改进Lookup Join:Full CacheLookup Join:Partial CacheLookup Join:Bucket hash joinLookup Join:Bucket hash join毫秒级维表关联What is More?PIP-10:Introduce Paimon QueryServiceLookup BloomFilter Index Lookup Join Lookup Changelog Producer Lookup BloomFilter IndexChangelog LifeCycle Decouple如何解决实时计算中常见的回刷的需求?Changelog LifeCycle DecoupleDataFunSummitDataFunSummit#202420240404未来规划未来规划未来规划 增强流读功能 增强Flink查询Paimon表的性能 拓展离线场景的应用和现有的离线生态融合 增强表管理,运维,自优化服务感谢观看感谢观看谢谢观看