《阿里云:全链路数据治理——智能数据建模篇 (182页).pdf》由会员分享,可在线阅读,更多相关《阿里云:全链路数据治理——智能数据建模篇 (182页).pdf(182页珍藏版)》请在三个皮匠报告上搜索。
1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)卷首语 云原生一体化数仓是阿里云整合自研大数据产品 MaxCompute、DataWorks、Hologres 和实时计算 Flink 版推出的一站式大数据处理平台,具备流批一体、实时离线一体、湖仓一体、全链路数据治理四大核心能力,可以满足企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理的需求,基于精简的架构,支撑全域数据分析需求和决策。全链路数据治理包含智能数据建模、全域数据集成、高效数据开发、主动数据治理、全面数据安全、快速分析服务六大产品能力,覆盖数据的全生命周期。本篇全域数据集成向开发者介绍
2、通过DataWorks数据集成在多表多表、多表单表、单表单表等场景下,进行实时或离线同步的技术选型与核心能力,并以MaxCompute 与 Hologres 引擎为例,演示云上数据同步操作步骤最佳实践。后续系列电子书更新请关注 DataWorks 官网或阿里云开发者社区。l 全域数据集成电子书(已完成)l 云原生一体化数仓新能力电子书(已完结)l 全面数据安全电子书-10 月 l 离线实时一体化电子书-10 月 l 主动数据治理电子书-11 月中 DataWorks 官网:https:/ 目录 大白话数据建模.5 数仓建模理论与规范.24 DataWorks 智能数据建模介绍.46 客户案例:
3、菜鸟集团数仓建模.59 客户案例:工业 OT 域数据最佳实践.78 客户案例:汽车行业数据建模最佳实践.86 客户案例:大淘系数据模型治理最佳实践.104 产品实操:零售电商数据建模操作实践.121 大白话数据建模 5 大白话数据建模 作者:苏靖鑫,DataWorks 产研团队 一、前言 合理的数据架构关乎企业的命脉,能够协助企业数据资产长久健康发展。数据开发、数据资产、数据治理,而这一切都是围绕数据建模展开的。数据研发同学 JobModel 里也指出了这一点:不再局限于 ETL 开发,会更侧重数据建模能力或者数据架构的能力。关于建模的资料很多,或许涉及过多专业术语的缘故,可能不够清晰直白。因
4、此我结合自己的理解,通过一个虚拟的案例,通过大白话给大家解释数据建模的专业术语,帮助大家快速理解。二、通过案例讲数据建模 Kimball 维度建模理论是目前在数据仓库领域中使用最为广泛的、也最得到认可和接纳的一项技术。目前集团数据团队工作规范就是基于它来开展,接下来我们来讲述维度建模理论的基础知识。1.度量与维度当我们看到一个数字的时候,我们会想到什么?大白话数据建模 6 很显然,单独一个 2 无法让我们联想到任何事。我们加一些描述进去,再来看看?加了描述以后,我们理解清楚了,原来 2 代表的是小明同学在全家便利店购买的 1瓶农夫山泉矿泉水,价格为 2 元。讲到这里,我们明白:单独一个数字无法
5、描述任何现实,必须加上必要的上下文才能让人理解。在维度建模理论里,将数值记录(2 元)称之为度量,将上下文称之为维度,这个案例中,商品、商家和客户均是维度,维度建模便是通过这两个名词作为起点展开的。2.事实表 小明同学当天还购买了其他商品,数据如下所示:大白话数据建模 7 这份记录购买记录的表格,由多行维度和度量构成的表格,称为事实表。它的每一行对应现实中的一个事实,这个事实被称为业务过程。我们看到上述数据中,每一行的区分依据,是订单 ID 和商品 ID,称为事实表的粒度,粒度决定了事实表里每一行的细分程度。事实表里除了记录商品 ID,还记录了商品名称,称为维度属性。在实际数据处理中,事实表为
6、了让其更可读、使用更便捷,往往会冗余一些维度属性。3.维度表 小明同学购买的商品,同时还有容量,类目等描述词,这部分描述词称之为维度属性,但是它们并不会全部出现在事实表里,而是单独存放。由维度主键和维度属性构成的表格,被称为维度表。维度表通常有多列或者说多个属性。实际应用中,包含几十甚至上百属性的维度表并不少见。维度表应该尽可能多地包括一些有意义的文字性描述,以方便下游用户使用。4.指标规范 现在我们已经有了描述便利店的商品和客户数据,还有了客户交易事实表。你很幸运地得到了一份数据分析师的工作,需要你来分析这家便利店的销售业绩。大白话数据建模 8 销售业绩需要通过指标来量化,所以你组织大家开了