《FFA2024分论坛-数据集成.pdf》由会员分享,可在线阅读,更多相关《FFA2024分论坛-数据集成.pdf(224页珍藏版)》请在三个皮匠报告上搜索。
1、Flink CDC YAML:面向数据集成的 API 设计Flink CDC YAML:The API designed for Data Integration徐榜江(雪尽)Flink PMC Member&Committer,Flink CDC 项目负责人Flink CDCYAML APITransform+AICommunityFlink CDCFlink CDC 项目介绍,定位,优势Flink CDCFlink CDC 是基于数据库的日志 CDC(ChangeChange DataData CaptureCapture)技术,实现了全增量一体化读取的端到端流式数据集成框架,配合 Fli
2、nk 优秀的管道能力和丰富的上下游生态,Flink CDC可以高效实现海量数据的实时集成。PaimonFlink CDC实时实时,一致性一致性Flink CDC全量数据全量数据增量数据增量数据TiDBHologresClickHouseIcebergPaimonSELECTWHEREJOINTop-NFlink SQL APIGROUP BYINSERTmapfilterjoinFlink DataStream APIkeyByflatMapSchema EvolutionSchema SyncSELECTFilterCDC YAML APIFull DB SyncUDFaggregateFl
3、ink CDC 用户APITiDBRDS MySQLHudi传统 CDC 数据集成作业DataX/Sqoop全量同步Debezium/Canal增量同步定时合并结果表增量表全量表链路组件多链路组件多数据一致性数据一致性数据新鲜度数据新鲜度研发技术栈研发技术栈!基于 Flink CDC 的数据集成作业Canal/Debezium增量同步DataX/Sqoop全量同步CDC SourceSinkCustom Logics定时合并结果表增量表全量表全增量一体化不丢不重亚秒级延迟端到端作业!结果表TiDBHologresIcebergPaimonSELECTWHEREJOINTop-NFlink SQ
4、L APIGROUP BYINSERTmapfilterjoinFlink DataStream APIkeyByflatMapSchema EvolutionSchema SyncSELECTFilterCDC YAML APIFull DB SyncUDFaggregateFlink CDC 用户APITiDBRDS MySQLHudiStarRocks4545端到端 Data Pipeline一个 YAML 文本,一个 Data Pipeline一行 Shell 命令,一个 Flink 作业细粒度 Schema Evolution表结构变更自动同步,无需作业启停根据容错和演进策略,支持细
5、粒度控制强大的 Transform 支持支持 SELECT、WHERE、计算列、表达式提供丰富的内置函数,同时支持 UDF全增量一体化全量和增量自动衔接,无锁算法保证一致性无需调度系统和手工介入Flink CDC 的优势YAML APIYAML API 设计背景,设计考量,核心特性Flink CDC 发展历史2020/07 Kick Off2021/082.0 版本 MySQL CDC,Postgres CDC 连接器2022/112.3 版本MySQL CDC 实现增量快照算法2023/103.0 版本 YAML API,端到端流式数据集成框架2024/01 捐赠 ASFYAML 支持 Tr
6、ansform(Projection,Filter,UDF)2024/093.2 版本增量快照框架,覆盖重点连接器作为Apache Flink 子项目捐赠给 ASFFlinkFlink CDCCDC 1.x1.x:FlinkFlink 的的 CDCCDC 连接器连接器(2)Scan Snapshot Data of table(4)Append Changelog of tableJDBC connectionBinlog connection(1)Lock table for data consistency(3)Release table lock after scanFlinkFlink