2020Flink峰会报告：6- Flink SQL-TSY.pdf-三个皮匠报告

1、数据接入数据接入 #2 数仓数仓与数据集成与数据集成 #1 数据入仓湖数据入仓湖 #3 数据打宽数据打宽 ( Joins )( Joins ) #4 总结总结 #5 #1 数仓与数据集成数据仓库与数据集成数据仓库是一个集成的（Integrated），面向主题的（Subject-Oriented），随时间变化的（Time-Variant），不可修改的（Nonvolatile）数据集合，用于支持管理决策。数据仓库之父 Bill Inmon 于1990年提出数据仓库的首要目的：数据集成，将多个分散的、异构的数据源整合在一起，便于后续分析。数据集成与 ETL 数据集成的主要步骤：

2、数据接入（Extract）数据清洗、打宽（Transformation）数据入仓、入湖（Load） E T L 传统数据仓库主要的问题：实时、离线数仓两套割裂的链路，造成重复工作，重复资源消耗实时、离线底层数据模型不一致，数据一致性和质量难以保障 ETL 数据集成 Hive HDFS KafkaKafka ODS ODS DWD DWD 业务数据库业务日志实时数仓离线数仓业务数据库业务日志 Binlog 采集定时 Query Flume DIM DIM Hive 打宽打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP

3、/KV/RDS) Flume Sqoop Canal Hive DB Flink Hive MR 流批一体的 ETL 数据集成核心区别： Flink 原生支持 CDC，接入数据库数据更方便强大灵活的维表关联能力，满足不同工作负载和时效性需求实时层做数据接入和数据转换，离线数仓通过实时明细层回流 Flink 流式写入 Hive，自动合并小文件优势：统一基础公共数据，保障一致性提升离线数仓时效性减少组件和链路的维护 Hive Kafka ODSDWD DWD 实时离线一体数仓 DIM 打宽 DWS Kafka 服务层 (OLAP/KV/RDS) Hive DWS 服务层 (OLAP/KV/RDS) 流式入仓 DB/Kafka/Hive Kafka 业务数据库业务日志 Binlog 采集 Flume CDC 日志采集 Flink #2 数据接入 Kafka 业务数据库业务日志

2020Flink峰会报告：6- Flink SQL-TSY.pdf

相关报告