《闵文俊-Paimon流式湖仓架构在字节大规模业务场景的实践.pdf》由会员分享,可在线阅读,更多相关《闵文俊-Paimon流式湖仓架构在字节大规模业务场景的实践.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、闵文俊目录不同的存储引擎之间的数据孤岛,数据的价值无法被充分挖掘流批统一近实时化开放格式,打破数据孤岛降本增效2022.01以 Flink 子项目 FlinkTable Store的形式孵化2023.03捐赠给 Apache 基金会,成为 Apache 的孵化项目,面向更开放的开源社区2024.030.4 0.7 版本发布,毕业成为 Apache 顶级项目2024.12发布具有里程碑意义的1.0 稳定版本,标志着流式湖仓技术正式迈入成熟发展新阶段广告转化系统实时数仓维表场景0%5%10%15%20%25%30%35%key value copybuild lookup fileParquet
2、writeOthersCPU占比CPU占比https:/ level Compaction StrategyPaimon 维表的关联性能数据Full CachePartial CacheHDFS 慢节点优化Sink Reuse 优化收效甚微,任务稳定性不够FLINK-37375:Checkpoint supports the Operator to customize asynchronous operation多流 UNION ALL 写入Partial Insert 写入FLIP-506:Support Reuse Multiple Table Sinks in PlannerFrom CommunityTo Community大模型正在重新定义软件Large Language Model Is Redefining The Software