《王春波-既快又好还省实时数仓新选择——Doris.pdf》由会员分享,可在线阅读,更多相关《王春波-既快又好还省实时数仓新选择——Doris.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、既快又好还省,实时数仓新选择Doris演讲人:王春波CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CONTENT目录实实时时数数仓仓概概
2、述述Doris功能解读Doris实时数仓设计CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.1 数据仓库的发展历程Inmon将数据仓库
3、描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。1990年代2000年以后1980年代20世纪80年代,IBM的研究人员提出了商业数据仓库的概念。数据仓库概念的提出,是为了解决和数据流相关的各种问题,特别是多重数据复制带来的高成本问题。2000年前后进入中国,最开始主要集中了在银行业和电信业,为满足监管报送和数据统计要求。2010年以后随着大数据技术的发展扩展到其它行业。互联网、零售、制造、医疗行业等各行各业都在推广数据仓库。1991年,Bill Inmon在Building the Data Warehouse一书中首次提出了数据仓库的概念。Bill
4、Inmon也被称为数据仓库之父。CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.2数据仓库技术的发展 2010年以前,Oracle、D
5、B2、Teradata 占据主导地位。数据库、ETL平台、BI工具组成数据仓库的三件套。2010年前后,互联网公司开始接入Hadoop平台;2013年,建行引入Greenplum,数据仓库进入了分布式时代。2016年前后,Hive数据仓库开始在互联网企业流行;以Storm、Spark Streaming、Flink为代表的流式引擎崭露头角。2018年以后,以Hadoop3.0为代表的一些列组件发布3.x版本,Hive数仓走向成熟;2019年阿里巴巴收购Flink母公司,Flink在国内大火,中国从开源社区的追随者变成技术引领者。3214CoreJavaWeek 2023CoreJavaWeek
6、 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.3 离线数仓技术栈l 数据仓库领域存在许多开源技术栈,以下是一些常见的开源数据仓库技术栈:1.Apache Hadoop:Apache Hado