《2、伍翀、徐榜江-Flink CDC 如何简化实时数据入湖入仓.pdf》由会员分享,可在线阅读,更多相关《2、伍翀、徐榜江-Flink CDC 如何简化实时数据入湖入仓.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、徐榜江(雪尽)Flink CDC Maintainer,Apache Flink Committer伍翀(云邪)Apache Flink PMC Member&CommitterFlink CDC 如何简化实时数据入湖入仓FlinkFlink CDCCDC核心技术核心技术开源生态开源生态阿里内部实践阿里内部实践DemoDemo#1#2#3#4#5#1#1FlinkFlink CDCCDCCDC 技术CDCCDC(Change Data Capture)是一种用于捕获数据库中数据变更的技术数据迁移数据集成数据分发Flink CDC 技术TiDBHologresClickHouseIcebergH
2、udiMore sources are on the way?Flink CDC 技术Flink CDC应用程序应用程序增量数据增量数据实时实时 一致性快照一致性快照全量数据全量数据Flink CDC应用程序应用程序增量数据增量数据全量数据全量数据实时实时 一致性快照一致性快照Flink CDC 技术Flink CDC应用程序应用程序增量数据增量数据全量数据全量数据实时实时 一致性快照一致性快照Flink CDC 技术传统数据入仓架构1.0DataX/SqoopDataX/Sqoop全量同步全量同步HiveHiveHDFSHDFS全量表全量表影响业务稳定性天级别产出性能瓶颈明显传统数据入仓架构
3、2.0KafkaKafkaHDFSHDFSDataX/SqoopDataX/Sqoop全量同步全量同步HDFSHDFSCanalCanal增量同步增量同步定时回流(小时定时回流(小时/天)天)HDFSHDFS定时合并定时合并增量表增量表全量表全量表最终表最终表HiveHive链路长,组件多小时级别产出不影响业务稳定性全量+增量割裂Flink CDC 入湖架构HudiFlink CDC全增量实时同步分钟级别产出不影响业务稳定性全量+增量一体化链路短,组件少#2 2FlinkFlink CDCCDC 核心特性核心特性Flink CDC 核心特性无锁读取,并发读取,断点续传增量快照读取CDC 数据入
4、湖更加稳定入湖友好设计异构数据源 Streaming ETL异构数据源融合分库分表合并入湖分库分表合并单并发失败重做使用锁无锁算法并发读取断点续传增量快照读取算法增量快照读取算法?Task1Task2Task3Task3Task1Task2?流式入湖友好的 Flink CDC 设计chunk2checkpointbarriercheckpointbarriercheckpointbarriercheckpointbarrierchunk1Stream WriteStream WriteHDFSHDFSHDFSHDFSchunk3基于异构数据源的数据湖构建全量+增量全量+增量(Streaming
5、Streaming JoinJoin)Flink CDCupsertupsertHudiHDFSHDFSS3S3OSSOSS基于分库分表的数据湖构建Flink CDC全量+增量shard1 shard2 shard3HudiHDFSHDFSS3S3OSSOSSupsertupsert#3 3FlinkFlink CDCCDC 社区生态社区生态Flink CDC 社区年度总结389111581528020406080100120140Flink CDC 1.2Flink CDC 1.2-1.41.4Flink CDC 2.0Flink CDC 2.0Flink CDC 2.1Flink CDC
6、2.1commitscontributorsFlink CDCFlink CDC 在在20212021年发布了年发布了5 5个大版本个大版本 MySQL CDC 增量快照读取 MySQL CDC 支持水平扩展 MySQL CDC 支持断点续传 修复 Schema OOM 问题 提供文档网站 MySQL CDC 支持最新位点消费 Postgres CDC 清理 WAL 文件 支持标准 metric 支持 MySQL 百亿级超大表 支持 MySQL 全部类型 支持 Oracle CDC 连接器 支持 MongoDB CDC 连接器 丰富社区文档和教程社区文档