【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf

编号:157161 PDF 31页 1.95MB 下载积分:VIP专享
下载报告请您先登录!

【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf

1、Apache Paimon Apache Paimon 流式数据湖流式数据湖 V V 0.40.4与后续展望与后续展望李劲松(之信)阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC关于演讲者l 2015年毕业于电子科技大学,并入职阿里云从事上一代流计算平台 Galaxy 研发l 相继从事 流计算、批计算、湖存储,并成为 Apache Flink PMC 成员,Apache Beam&Iceberg Committerl 目前是阿里云高级技术专家,开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,专注流式湖

2、仓技术与产品CONTENT目录 湖存储上的难点0102深入 Apache Paimon 0.403社区应用实践04未来规划一、湖存储上的难点数据湖新场景l 实时数据入湖 实时更新来自数据库的 CDC 数据,能被多种引擎尽快分析l 实时字段打宽 实时打宽维表的字段,提供给下游查询及流读l 实时数据流读 提供消息队列体验的流读,并能根据主键生成 Changelog数据湖RDBMS字段打宽数据入湖Trino查询维表维表流读入湖的痛点数据湖RDBMS数据入湖Trino查询l 资源消耗与实时性 更新吞吐差,资源消耗巨大 COW 更新差,MOR 查询差,难以选择 反压、反压、还是反压l 数据湖需管理的事情

3、多 管理 compaction 清理历史小文件 清理过期分区l Schema Evolution 上游加列,湖存储怎么办?重启同步作业?一堆小表耗资源且耗精力吞吐与资源?新鲜度与查询性能?Schema Change?小表多同步资源消耗大?查询生态?打宽表的痛点数据湖Trino查询l 资源消耗与实时性 同样重要l 输入多样性 CDC 输入 输入可能是乱序的l 读取 批读支持列裁剪 流读?Project pushdown?CDC Delete怎么办?字段打宽维表维表能流读吗?吞吐与资源?输入乱序怎么办?流读的痛点数据湖l 全增量一体流读 先读全量再接增量,完整的流l Changelog 生成 有些

4、场景要低成本 有些场景要低时延l 痛点:FileNotFound 数据湖文件清理和流读的矛盾l Lookup Join 支持 Flink 的 Lookup Join流读数据湖流读,建议 1分钟+延时的场景Apache Paimon is a streaming data lake platform that supports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon:一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。

5、二、深入 Apache Paimon 0.4Data Lake(HDFS/OSS/S3)01010101010101Schema EvolutionAppend Data宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data批读Ad-HocTrinoChangelog生成全增量一体流读顺序读Lookup JoinPaimon 架构Paimon:理解写入与查询 写入:写入发生在 Flink Sink 中,当检查点到达时,它会对内存中的数据进行排序,并将记录刷新到 Level0 文件中。压缩:默认情况下,Flink Sink 中也会发生异步压缩,当然,

6、您可以启动单独的压缩作业。由于 LSM 的设计,合并是局部的,这可以有效地减少写放大。清理:写入作业默认会清理过期的快照,有效的清理可以减少DFS上大量的文件,而且你还可以配置分区的清理策略。读取:发生在新启动的作业中,您可以查询在文件系统上提交的快照。该查询将合并多个 Level 的 LSM,这可能会有一些开销,但不会很慢。Append 写(吞吐大)、局部压缩(消耗低)、自动清理(全自动)、有序合并(不会很慢)Paimon:入湖带来的收益资源节省:流计算任务资源节省30%实时ODS存储资源节省40%性能效率任务写入性能(全量+增量)提升3倍左右部分查询性能提升7倍#2#1来自同程旅行的生产实

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【阿里云李劲松】Apache Paimon:Streaming LakeHouse 最新进展.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠