《2020Flink峰会报告:6- Flink SQL-TSY.pdf》由会员分享,可在线阅读,更多相关《2020Flink峰会报告:6- Flink SQL-TSY.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、数据接入数据接入 #2 数仓数仓与数据集成与数据集成 #1 数据入仓湖数据入仓湖 #3 数据打宽数据打宽 ( Joins )( Joins ) #4 总结总结 #5 #1 数仓与数据集成 数据仓库 与 数据集成 数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时 间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管 理决策。 数据仓库之父 Bill Inmon 于1990年提出 数据仓库的首要目的:数据集成,将多个分散的、异构的数据源整合在一起,便于 后续分析。 数据集成 与 ETL 数据集成的主要步骤:
2、 数据接入(Extract) 数据清洗、打宽 (Transformation) 数据入仓、入湖 (Load) E T L 传统数据仓库 主要的问题: 实时、离线数仓两套割裂的链路,造成重复工作,重复资源消耗 实时、离线底层数据模型不一致,数据一致性和质量难以保障 ETL 数据集成 Hive HDFS KafkaKafka ODS ODS DWD DWD 业务数据库 业务日志 实时数仓 离线数仓 业务数据库 业务日志 Binlog 采集 定时 Query Flume DIM DIM Hive 打宽 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP
3、/KV/RDS) Flume Sqoop Canal Hive DB Flink Hive MR 流批一体的 ETL 数据集成 核心区别: Flink 原生支持 CDC,接入数据库数据更方便 强大灵活的维表关联能力,满足不同工作负载和时效性需求 实时层做数据接入和数据转换,离线数仓通过实时明细层回流 Flink 流式写入 Hive,自动合并小文件 优势: 统一基础公共数据,保障一致性 提升离线数仓时效性 减少组件和链路的维护 Hive Kafka ODSDWD DWD 实时离线一体数仓 DIM 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP/KV/RDS) 流式入仓 DB/Kafka/Hive Kafka 业务数据库 业务日志 Binlog 采集 Flume CDC 日志采集 Flink #2 数据接入 Kafka 业务数据库 业务日志