当前位置:首页 > 报告详情

王春波-既快又好还省实时数仓新选择——Doris.pdf

上传人: 2*** 编号:136991 2023-08-03 32页 2.61MB

1、既快又好还省,实时数仓新选择Doris演讲人:王春波CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CONTENT目录实实时时数数仓仓概概

2、述述Doris功能解读Doris实时数仓设计CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.1 数据仓库的发展历程Inmon将数据仓库

3、描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。1990年代2000年以后1980年代20世纪80年代,IBM的研究人员提出了商业数据仓库的概念。数据仓库概念的提出,是为了解决和数据流相关的各种问题,特别是多重数据复制带来的高成本问题。2000年前后进入中国,最开始主要集中了在银行业和电信业,为满足监管报送和数据统计要求。2010年以后随着大数据技术的发展扩展到其它行业。互联网、零售、制造、医疗行业等各行各业都在推广数据仓库。1991年,Bill Inmon在Building the Data Warehouse一书中首次提出了数据仓库的概念。Bill

4、Inmon也被称为数据仓库之父。CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.2数据仓库技术的发展 2010年以前,Oracle、D

5、B2、Teradata 占据主导地位。数据库、ETL平台、BI工具组成数据仓库的三件套。2010年前后,互联网公司开始接入Hadoop平台;2013年,建行引入Greenplum,数据仓库进入了分布式时代。2016年前后,Hive数据仓库开始在互联网企业流行;以Storm、Spark Streaming、Flink为代表的流式引擎崭露头角。2018年以后,以Hadoop3.0为代表的一些列组件发布3.x版本,Hive数仓走向成熟;2019年阿里巴巴收购Flink母公司,Flink在国内大火,中国从开源社区的追随者变成技术引领者。3214CoreJavaWeek 2023CoreJavaWeek

6、 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 2023CoreJavaWeek 20231.3 离线数仓技术栈l 数据仓库领域存在许多开源技术栈,以下是一些常见的开源数据仓库技术栈:1.Apache Hadoop:Apache Hado

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了实时数仓的概念、发展历程、技术栈以及实时数仓的难点。接着,文章详细解读了Doris的发展历程、三大模型、数据导入方式、多表关联策略、核心设计以及查询优化。然后,文章介绍了实时数仓的两种架构:Lambda架构和Kappa架构,并对比了两者的优缺点。最后,文章提出了基于Doris的流批一体方案,并给出了五种不同的方案,以满足不同业务场景的需求。
Doris如何实现实时数仓? 实时数仓与传统数仓有何不同? 如何选择合适的实时数仓方案?
客服
商务合作
小程序
服务号
折叠