《基于 Flink CDC 打造 企业级实时数据集成方案.pdf》由会员分享,可在线阅读,更多相关《基于 Flink CDC 打造 企业级实时数据集成方案.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、 Flink CDC Flink Flink CDC Flink PMC Member&CommitterContents01CDC 02Flink CDC 03 Flink CDC CDC 01数据备份、系统容灾一对多分发下游数据湖/数仓 ETLCDC 技术CDC(Change Data Capture)是用户捕获数据变更的技术,通常我们说的 CDC 技术主要面向数据库的变更,是用于捕获数据库中数据变更的技术。基于查询的 CDC 技术基于日志的 CDC 技术CDC 实现机制!离线调度查询作业,批处理无法保障数据一致性不保障实时性实时消费日志,流处理保障数据一致性提供实时数据CDC 数据集成趋
2、势DataX/Sqoop全量同步增量表全量表Canal/Debezium增量同步结果表全增量一体化同步结果表Flink CDC/InLong!历史数据规模大数据库的历史数据规模大,100T+规模也算常见增量数据实时性要求高数据库的增量数据业务价值高,且价值随时间递减,需要实时处理数据的保序性CDC 数据的加工结果通常需要强一致性语义,通常需要处理工具支持全局保序表结构动态变化增量数据随时间增长,数据对应的表结构会不断演进CDC 数据集成的技术挑战CDC 数据集成常见开源技术方案Flink CDCDebeziumCanalSqoopKettleCDC 机制日志日志日志查询查询增量同步断点续传全量
3、同步全增量一体化架构分布式单机单机分布式分布式转换生态Flink CDC 02Flink CDCFlink CDC 是基于数据库的日志的 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC可以高效实现海量数据的实时集成。#$%&()*)实时一致性快照全量数据增量数据Flink CDC 核心设计:增量快照框架chunk1chunk2chunk3chunk1chunk2chunk3chunk1chunk2chunk3无锁一致性切换Task1Task2Task3Task3Task1Task2全量阶段增量阶段全增量自动切换资源自动
4、释放并行读取ApsaraDB MySQL更多数据源接入中Flink CDC 核心设计:原生对接 Flink 生态SELECTWHEREJOINTop-NSQL APIGROUP BYINSERTmapfilteraggregatejoinDataStream APIkeyByflatMapTiDBHologresClickHouseIcebergpaimonTiDBApsaraDB MySQL!Flink CDC 技术优势并行读取支持分布式读取,框架支持水平扩容无锁读取避免对线上数据库加锁,对业务无侵入全增量一体化全量和增量自动衔接,无需人工介入生态支持原生支持 Flink 现有生态,用户开发
5、部署成本低Flink CDC 开源社区Contributor100+Fork1500+Star4500+第一个 Commit Kick Off发布 1.5 版本,支持MySQL、Postgres发布 2.0 版本MySQL CDC 增量快照算法发布 2.4 版本数据源持续扩展,增量快照覆盖主流连接器发布 2.3 版本提供增量快照框架2023.062022.112021.082020.072021.05*GitHub Flink CDC 03主要业务场景:CDC 数据实时入湖入仓HologresPaimon表结构变更自动同步动态加表表结构自动发现整库同步HologresPaimon阿里云基于 F
6、link CDC 的入湖入仓方案实时计算 Flink 版HologresExtract&LoadWarehouseSourceTransformAnalysis&Output+,-.(#$%&(/+,-.(#$%&(/报表分析 实时大屏 数据应用ApsaraDB MySQLIceberg#$%&ApplicationQuick BI*0102345678(090(/678(090(/paimon阿里云基于 Flink CDC 的入湖入仓方案#$%&!#$%#&$%$($)#&*+&,-%.*)%)&/01234