1、实时数据湖 Paimon 0.7 的研发进展李劲松(花名之信)阿里云Apache Paimon is a lake format that enables building a Realtime Lakehouse Architecture with Flink and Spark for both streaming and batch operations.Paimon innovatively combines lake format and LSM(Log-structured merge-tree)structure,bringing realtime streaming updat
2、es into the lake.Paimon 概述目录01Paimon 现有能力介绍02Paimon 后续功能展望Paimon 现有能力介绍01Paimon 基本概念主键表日志表湖管控有主键,带更新无主键,批处理湖仓一体Paimon 主键表:入湖CDC 全自动入湖Canal JsonDebezium JsonMaxwellOGG半自动入湖Flink SQLSchema Evolution整库同步,自动加表Paimon 主键表:更新固定 Bucket跨分区更新动态 Bucket同步压缩异步压缩Bucket 策略压缩策略去重如何更新部分列更新聚合更新保留第条是否流读变更志不产变更志输即变更Loo
3、kup 产变更Full 压缩产变更流写更新DorisTrino查询流写流读Paimon 日志表Z-order 排序:提压缩率+性能查询批写批读+Z-order 排序+OLAP 高性能分析 流写流读部分取代昂贵的队列Paimon 管控4545Snapshot+Tag版本管理,Tag 复用文件减少存储系统表丰富系统表,查看内部结构Procedures丰富命令,手动管理 Paimon 表Metrics新增了大量 Metrics,监控作业Paimon 后续功能展望02Paimon 主键表:查询加速S0S1S2Transaction axisS3m0m1m2m3Partition layoutParti
4、tion-0Partition-1Partition-2Bucket-0LSM 3 FilesBucket-1LSM 10 FilesBucket-0LSM 12 FilesBucket-1LSM 6 FilesBucket-0LSM 3 FilesBucket-1LSM 8 Filesp LSM 在一般只能由单并发读取p 扩大 Bucket 个数能增加读性能p 但会带来更多小文件Paimon 主键表:查询加速p 主键表查询性能万恶之源:增量与全量的合并p 如何让读取文件不要合并:Deletion.VectorsLSM强大的 Lookup 和更新能力Paimon 主键表:流读 Changelo
5、g 分离S1S2S3S4L1L2单独管理 Log 的生命周期p 流读担心 Snapshot 过期后找不到文件?p Consumer 太复杂?想要和队列一模一样Paimon 日志表:查询加速 自带的索引机制:minmax 扩展的索引机制:bitmap,bloomfilter,倒排索引 索引支持嵌套类型:Map Key,嵌套字段命中索引10 100倍性能提升Paimon 日志表:增删改查批处理的增删改查 Delete&Update&Merge Into Copy On Write:重写部分文件 Merge On Read:使用 Deletion VectorsPaimon 日志表:Spark 持续优化 动态分区裁剪 Exchange 复用 动态调整 Scan 并发 合并标量子查询 Cost-Based 优化性能基本追平 Spark 的 Parquet 内表Paimon 管控:BranchS1S2S3S4T2Create Tag:不可变S2Create BranchMain BranchS3S4My BranchMerge BranchReplace Branch Tag 不可变 Branch 可变 工程测试和验证 取代分区并复用文件谢谢点赞:https:/ Paimon 公众号,了解实时数据湖最新咨询