2、伍翀、徐榜江-Flink CDC 如何简化实时数据入湖入仓.pdf

编号:101788 PDF 39页 7.02MB 下载积分:VIP专享
下载报告请您先登录!

2、伍翀、徐榜江-Flink CDC 如何简化实时数据入湖入仓.pdf

1、徐榜江(雪尽)Flink CDC Maintainer,Apache Flink Committer伍翀(云邪)Apache Flink PMC Member&CommitterFlink CDC 如何简化实时数据入湖入仓FlinkFlink CDCCDC核心技术核心技术开源生态开源生态阿里内部实践阿里内部实践DemoDemo#1#2#3#4#5#1#1FlinkFlink CDCCDCCDC 技术CDCCDC(Change Data Capture)是一种用于捕获数据库中数据变更的技术数据迁移数据集成数据分发Flink CDC 技术TiDBHologresClickHouseIcebergH

2、udiMore sources are on the way?Flink CDC 技术Flink CDC应用程序应用程序增量数据增量数据实时实时 一致性快照一致性快照全量数据全量数据Flink CDC应用程序应用程序增量数据增量数据全量数据全量数据实时实时 一致性快照一致性快照Flink CDC 技术Flink CDC应用程序应用程序增量数据增量数据全量数据全量数据实时实时 一致性快照一致性快照Flink CDC 技术传统数据入仓架构1.0DataX/SqoopDataX/Sqoop全量同步全量同步HiveHiveHDFSHDFS全量表全量表影响业务稳定性天级别产出性能瓶颈明显传统数据入仓架构

3、2.0KafkaKafkaHDFSHDFSDataX/SqoopDataX/Sqoop全量同步全量同步HDFSHDFSCanalCanal增量同步增量同步定时回流(小时定时回流(小时/天)天)HDFSHDFS定时合并定时合并增量表增量表全量表全量表最终表最终表HiveHive链路长,组件多小时级别产出不影响业务稳定性全量+增量割裂Flink CDC 入湖架构HudiFlink CDC全增量实时同步分钟级别产出不影响业务稳定性全量+增量一体化链路短,组件少#2 2FlinkFlink CDCCDC 核心特性核心特性Flink CDC 核心特性无锁读取,并发读取,断点续传增量快照读取CDC 数据入

4、湖更加稳定入湖友好设计异构数据源 Streaming ETL异构数据源融合分库分表合并入湖分库分表合并单并发失败重做使用锁无锁算法并发读取断点续传增量快照读取算法增量快照读取算法?Task1Task2Task3Task3Task1Task2?流式入湖友好的 Flink CDC 设计chunk2checkpointbarriercheckpointbarriercheckpointbarriercheckpointbarrierchunk1Stream WriteStream WriteHDFSHDFSHDFSHDFSchunk3基于异构数据源的数据湖构建全量+增量全量+增量(Streaming

5、Streaming JoinJoin)Flink CDCupsertupsertHudiHDFSHDFSS3S3OSSOSS基于分库分表的数据湖构建Flink CDC全量+增量shard1 shard2 shard3HudiHDFSHDFSS3S3OSSOSSupsertupsert#3 3FlinkFlink CDCCDC 社区生态社区生态Flink CDC 社区年度总结389111581528020406080100120140Flink CDC 1.2Flink CDC 1.2-1.41.4Flink CDC 2.0Flink CDC 2.0Flink CDC 2.1Flink CDC

6、2.1commitscontributorsFlink CDCFlink CDC 在在20212021年发布了年发布了5 5个大版本个大版本 MySQL CDC 增量快照读取 MySQL CDC 支持水平扩展 MySQL CDC 支持断点续传 修复 Schema OOM 问题 提供文档网站 MySQL CDC 支持最新位点消费 Postgres CDC 清理 WAL 文件 支持标准 metric 支持 MySQL 百亿级超大表 支持 MySQL 全部类型 支持 Oracle CDC 连接器 支持 MongoDB CDC 连接器 丰富社区文档和教程社区文档

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2、伍翀、徐榜江-Flink CDC 如何简化实时数据入湖入仓.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠