1、徐榜江(雪尽)Flink CDC Maintainer&Apache Flink Committer|从数据集成到现代数据栈01数据集成02数据集成工具03现代数据栈04现代数据栈实践目录|数据集成Data Integration01|n数据集成数据集成是将多个分散的数据源,在逻辑或物理上有机地集中,为企业解决数据孤岛问题,通过统一的数据视图为企业提供决策支持。n目的数据集成的目标是对数据进行集成,最早的数据集成系统可以追溯到1991年,明尼苏达大学在构建人口数据库系统IPUMS1时,使用了一种数据仓库方法,从不同的数据源中进行数据提取、数据转换并加载到一个统一的模式中,实现了数据集成。1 h
2、ttps:/en.wikipedia.org/wiki/IPUMS数据集成(Data Integration)|n数据仓库数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策1。数据仓库之父 Bill Inmon 于1990年定义n与数据集成关系数据仓库的首要目的是数据集成,将多个分散的、异构的数据源在逻辑或者物理上整合在一起,便于后续分析。数据仓库(Data Warehouse)|n数据湖数据湖这个概念最早于2011年提出1。数据湖是一个集中式存储
3、,用于存储、处理大量结构化数据、半结构化数据、非结构化数据,它可以以原生格式存储数据,并处理任何转换格式。Google Cloud 的数据湖定义n与数据集成关系数据湖的首要目的也是数据集成,将多个分散的、异构的数据源的所有原始数据整合在一起。数据湖与数据仓库主要区别在于:数据湖的存储成本更低,无需提前定义数据的schema。1 https:/en.wikipedia.org/wiki/Data_lake数据湖(Data Lake)|ETL计算(T)?装载(L)采集(E)?ETL 是数据集成的主要步骤,即:数据接入(Extract)数据清洗、打宽(Transformation)数据入仓、入湖(L
4、oad)数据集成工具Data Integration Tool02|数据集成工具(Data Integration Tool)Gartner 数据集成工具魔力象限2022|数据集成工具lakeFS data engineering 2022 map|数据集成工具Stitch(Talend收购)FivetranAirbyteFocusData ingestion,ELT.Data ingestion,ELTELT as a first step.Reverse-ETL coming in 2022.SourcesMore than 130.More than 150.More than 120,
5、one year from inception.Goal is 200 by end of 2021.DestinationsAll major data warehouses,lakes and databases.All main warehouses and databases.All data warehouses,lakes and databases.Customizability of connectorsStitchs Import AI enables their users to push data from anywhere to their destination.Li
6、mited through Fivetrans Cloud functions.User can edit any pre-built connectors and build new ones within 2 hours with Airbytes Connector Development Kit.Database replicationFull table and incremental via change data capture.Pricing is indexed on rows.Full table and incremental vi