1-1 从数据集成到现代数据栈.pdf

编号:101814 PDF 30页 4.13MB 下载积分:VIP专享
下载报告请您先登录!

1-1 从数据集成到现代数据栈.pdf

1、徐榜江(雪尽)Flink CDC Maintainer&Apache Flink Committer|从数据集成到现代数据栈01数据集成02数据集成工具03现代数据栈04现代数据栈实践目录|数据集成Data Integration01|n数据集成数据集成是将多个分散的数据源,在逻辑或物理上有机地集中,为企业解决数据孤岛问题,通过统一的数据视图为企业提供决策支持。n目的数据集成的目标是对数据进行集成,最早的数据集成系统可以追溯到1991年,明尼苏达大学在构建人口数据库系统IPUMS1时,使用了一种数据仓库方法,从不同的数据源中进行数据提取、数据转换并加载到一个统一的模式中,实现了数据集成。1 h

2、ttps:/en.wikipedia.org/wiki/IPUMS数据集成(Data Integration)|n数据仓库数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策1。数据仓库之父 Bill Inmon 于1990年定义n与数据集成关系数据仓库的首要目的是数据集成,将多个分散的、异构的数据源在逻辑或者物理上整合在一起,便于后续分析。数据仓库(Data Warehouse)|n数据湖数据湖这个概念最早于2011年提出1。数据湖是一个集中式存储

3、,用于存储、处理大量结构化数据、半结构化数据、非结构化数据,它可以以原生格式存储数据,并处理任何转换格式。Google Cloud 的数据湖定义n与数据集成关系数据湖的首要目的也是数据集成,将多个分散的、异构的数据源的所有原始数据整合在一起。数据湖与数据仓库主要区别在于:数据湖的存储成本更低,无需提前定义数据的schema。1 https:/en.wikipedia.org/wiki/Data_lake数据湖(Data Lake)|ETL计算(T)?装载(L)采集(E)?ETL 是数据集成的主要步骤,即:数据接入(Extract)数据清洗、打宽(Transformation)数据入仓、入湖(L

4、oad)数据集成工具Data Integration Tool02|数据集成工具(Data Integration Tool)Gartner 数据集成工具魔力象限2022|数据集成工具lakeFS data engineering 2022 map|数据集成工具Stitch(Talend收购)FivetranAirbyteFocusData ingestion,ELT.Data ingestion,ELTELT as a first step.Reverse-ETL coming in 2022.SourcesMore than 130.More than 150.More than 120,

5、one year from inception.Goal is 200 by end of 2021.DestinationsAll major data warehouses,lakes and databases.All main warehouses and databases.All data warehouses,lakes and databases.Customizability of connectorsStitchs Import AI enables their users to push data from anywhere to their destination.Li

6、mited through Fivetrans Cloud functions.User can edit any pre-built connectors and build new ones within 2 hours with Airbytes Connector Development Kit.Database replicationFull table and incremental via change data capture.Pricing is indexed on rows.Full table and incremental vi

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-1 从数据集成到现代数据栈.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠