当前位置:首页 > 报告详情

Paimon 0.7.pdf

上传人: s**** 编号:157202 2024-03-16 18页 1.19MB

1、实时数据湖 Paimon 0.7 的研发进展李劲松(花名之信)阿里云Apache Paimon is a lake format that enables building a Realtime Lakehouse Architecture with Flink and Spark for both streaming and batch operations.Paimon innovatively combines lake format and LSM(Log-structured merge-tree)structure,bringing realtime streaming updat

2、es into the lake.Paimon 概述目录01Paimon 现有能力介绍02Paimon 后续功能展望Paimon 现有能力介绍01Paimon 基本概念主键表日志表湖管控有主键,带更新无主键,批处理湖仓一体Paimon 主键表:入湖CDC 全自动入湖Canal JsonDebezium JsonMaxwellOGG半自动入湖Flink SQLSchema Evolution整库同步,自动加表Paimon 主键表:更新固定 Bucket跨分区更新动态 Bucket同步压缩异步压缩Bucket 策略压缩策略去重如何更新部分列更新聚合更新保留第条是否流读变更志不产变更志输即变更Loo

3、kup 产变更Full 压缩产变更流写更新DorisTrino查询流写流读Paimon 日志表Z-order 排序:提压缩率+性能查询批写批读+Z-order 排序+OLAP 高性能分析 流写流读部分取代昂贵的队列Paimon 管控4545Snapshot+Tag版本管理,Tag 复用文件减少存储系统表丰富系统表,查看内部结构Procedures丰富命令,手动管理 Paimon 表Metrics新增了大量 Metrics,监控作业Paimon 后续功能展望02Paimon 主键表:查询加速S0S1S2Transaction axisS3m0m1m2m3Partition layoutParti

4、tion-0Partition-1Partition-2Bucket-0LSM 3 FilesBucket-1LSM 10 FilesBucket-0LSM 12 FilesBucket-1LSM 6 FilesBucket-0LSM 3 FilesBucket-1LSM 8 Filesp LSM 在一般只能由单并发读取p 扩大 Bucket 个数能增加读性能p 但会带来更多小文件Paimon 主键表:查询加速p 主键表查询性能万恶之源:增量与全量的合并p 如何让读取文件不要合并:Deletion.VectorsLSM强大的 Lookup 和更新能力Paimon 主键表:流读 Changelo

5、g 分离S1S2S3S4L1L2单独管理 Log 的生命周期p 流读担心 Snapshot 过期后找不到文件?p Consumer 太复杂?想要和队列一模一样Paimon 日志表:查询加速 自带的索引机制:minmax 扩展的索引机制:bitmap,bloomfilter,倒排索引 索引支持嵌套类型:Map Key,嵌套字段命中索引10 100倍性能提升Paimon 日志表:增删改查批处理的增删改查 Delete&Update&Merge Into Copy On Write:重写部分文件 Merge On Read:使用 Deletion VectorsPaimon 日志表:Spark 持续优化 动态分区裁剪 Exchange 复用 动态调整 Scan 并发 合并标量子查询 Cost-Based 优化性能基本追平 Spark 的 Parquet 内表Paimon 管控:BranchS1S2S3S4T2Create Tag:不可变S2Create BranchMain BranchS3S4My BranchMerge BranchReplace Branch Tag 不可变 Branch 可变 工程测试和验证 取代分区并复用文件谢谢点赞:https:/ Paimon 公众号,了解实时数据湖最新咨询

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Apache Paimon是一个湖格式,结合了LSM(日志结构合并树)结构,实现了实时流处理与批处理相结合的实时数据湖架构。Paimon的主要特点包括:支持主键表和日志表,实现湖仓一体;提供CDC全自动、半自动入湖方式,以及Flink SQL的整库同步;支持Bucket策略和压缩策略,实现高效存储和查询;提供Snapshot和Tag版本管理,丰富系统表和Procedures命令;新增大量Metrics,实现作业监控。 Paimon的后续功能展望包括:查询加速,通过Deletion Vectors避免文件合并,以及优化Consumer;日志表查询加速,通过自带索引机制和扩展索引机制提升性能;支持Spark的持续优化,如动态分区裁剪、Exchange复用等;提供Branch功能,实现Tag和Branch的管理,以及取代分区并复用文件。 总之,Paimon通过创新性的设计和功能优化,实现了实时数据湖的高效构建和管理,为实时流处理与批处理提供了强大的数据支撑。
"实时数据湖Paimon的创新之处在哪里?" "Paimon如何实现实时流写与流读的功能?" "Paimon的后续功能展望都有哪些亮点?"
客服
商务合作
小程序
服务号
折叠