《基于 Flink CDC 高效构建入湖通道.pdf》由会员分享,可在线阅读,更多相关《基于 Flink CDC 高效构建入湖通道.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、基于 Flink CDC 高效构建入湖通道雪尽/阿里云-开源大数据-Flink数据通道负责人 Apache Flink PMC Member&Flink CDC LeadStreaming lakehouse meetupFlink CDC 核心技术解析0101CONTENT目录 0202数据入湖入仓的挑战0303基于 Flink CDC 的入湖入仓方案0404Flink CDC+Paimon 最佳实践01Flink CDC 核心技术解析Flink CDC 技术Flink CDC 是基于数据库的日志的 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的
2、上下游生态,Flink CDC可以高效实现海量数据的实时集成。Flink CDC增量数据增量数据实时一致性快照实时一致性快照全量数据全量数据SELECTWHEREJOINTop-NSQL APIGROUP BYINSERTmapfilteraggregatejoinDataStream APIkeyByflatMapTiDBHologresClickHouseIcebergHudiMore sources are on the wayTiDBApsaraDB MySQLFlink CDC 技术2020.072020.07第一个 Commit By 云邪2021.052021.05发布 1.5
3、版本,支持MySQL、Postgres2021.82021.8发布 2.0 版本,by 雪尽MySQL CDC 实现增量快照算法2023.62023.6发布 2.4 版本,By 阮航数据源持续扩展,增量快照覆盖主流连接器2022.112022.11发布 2.3 版本提供增量快照框架Flink CDC 社区发展 贡献者:32人 关闭 issue:141 合并 PR:96 合并 Commits:96Flink CDC 2.4MySQL,28,25%Docs,17,15%Base,15,14%MongoDB,12,11%PostgreSQL,10,9%OceanBase,9,8%Vitess,8,7
4、%Oracle,7,6%SQL Server,5,5%MySQLDocsBaseMongoDBPostgreSQLOceanBaseVitessOracleSQL Server2.4 版本 commits 分布2.4 版本关键数据Flink CDC 2.4 核心 feature支持支持OracleOracle ModeMode兼容兼容 FlinkFlink 1.131.13 -1.171.17升级升级 debeziumdebezium 至至1.9.7.Final1.9.7.Final支持支持 VitessVitess 数据源数据源PostgreSQLPostgreSQL 支持增量快照支持增量快
5、照SQLSQL ServerServer 支持增量快照支持增量快照增量快照框架支持自动释放资源增量快照框架支持自动释放资源MySQLMySQL CDCCDC 支持非支持非PKPK表表上周,我们发布了 2.4.1小版本,欢迎使用ApsaraDB MySQL更多连接器对接中Flink CDC 增量快照支持矩阵chunk1chunk2chunk3chunk1chunk2chunk3chunk1chunk2chunk3并并行行读读取取无锁一致性切换无锁一致性切换Task1Task2Task3Task3Task1Task2全量阶段增量阶段全增量自动切换全增量自动切换4545Flink CDC 技术优势并
6、行读取支持并行读取,支持水平扩容无锁读取无需对线上数据库加锁,对业务无侵入全增量一体化全量和增量自动衔接,无需人工介入Exactly-once 语义准确一次语义,确保数据不丢不重02CDC数据入湖入仓的挑战4545CDC 数据入湖入仓的挑战历史数据规模数据库的历史数据规模大,100T+规模也算常见增量数据实时性要求高数据库的增量数据业务价值高,且价值随时间递减,需要实时处理数据的保序性CDC 数据的加工结果通常需要强一致性语义,通常需要处理工具支持全局保序Schema 动态变化增量数据随时间增长,数据对应的Schema会不断演进链路长,组件多小时级别产出