1、,目录,阿里巴巴数据需求流转介绍,1,阿里巴巴数仓建模最佳实践,2,阿里巴巴数仓建模实操演示,3,数据模型应用-数据资产介绍,4,Contents,01 阿里巴巴数据需求流转介绍,阿里巴巴数据需求工作流转介绍,|,阿里巴巴数仓建模最佳实践,阿里巴巴零售数仓建模最佳实践,|,核心输出1:零售行业数仓顶层设计输出,公共层-数据域,应用层-数据集市,业务分类,阿里巴巴零售数仓建模最佳实践,|,核心输出2:零售行业数仓规范输出,表命名规范,阿里巴巴零售数仓建模最佳实践,|,核心输出3:零售行业核心维度输出,订单、会员、商品等维度,维度,这里以交易域的维度为例,阿里巴巴零售数仓建模最佳实践,|,核心输出
2、4:零售行业丰富的模型及指标输出,模型列表,模型目录树业务分类视角数据域视角,阿里巴巴零售数仓建模最佳实践,|,核心输出4:零售行业丰富的模型及指标输出,指标列表,指标目录树业务分类视角数据域视角,阿里巴巴数仓建模实操演示,阿里巴巴数仓建模实操演示,|,数仓规划、数据标准、数据指标都服务于维度建模,不同类型用户眼中的数据建模,租户级及工作空间级模型数量分布了解,最新发布的模型列表,|,阿里巴巴数仓建模通用流程介绍,数仓建模实践常见问题,|,|,逆向建模工作流程,2、形成数据模型总线矩阵,1、梳理历史模型,3、兼容历史规范,5、关闭线下建模入口,4、导入历史模型,逆向建模-期望达到的效果存量模型
3、做全面分析盘点;下线若干历史、低价值模型;梳理定义最全业务过程;完成存量模型100%线上化管理。,逆向建模-面临的难点多年积攒下来的历史包袱,较多模型无维护,仍有使用。多套规范并存,导致混乱的命名。相似模型和低价模型较多。,问题1:如何解决已有数仓建模冷启动难的问题?,|,问题1:如何解决已有数仓建模冷启动难的问题?-逆向建模,支持对已有物理表逆向生成模型;管理员一次性操作;模型负责人负责调整模型归属;,|,问题2:如何解决数仓规范落地难的问题?-建表检查器,开启建表检查器严控随意创建数仓核心表,一定要保存,并开启,才能生效哦,数仓核心要管控的表名开头在这里设置,已生效才起作用,|,问题2:如
4、何解决数仓规范落地难的问题?-自动生成表名/指标名,无需记忆表名规范;无需记忆标准业务名称;建模时自动符合规范的模型名称/指标名称;,|,问题3:如何提升模型设计的工作效率?-批量生成派生指标,支持OneData理论的指标设计与管理工具;派生指标=原子指标+修饰词+时间周期;,|,问题3:如何提升模型设计的工作效率?-从表导入/字段冗余,经典的dwd设计场景:先从ods表导入,再冗余dim表字段;快速复制引擎中已有物理表的表结构;模型字段可以溯源到来源表和来源字段;生成标准的ETL简代码;,|,问题3:如何提升模型设计的工作效率?-FML/DDL代码建模,新增用可视化建模,修改用代码建模;支持
5、DataWorks自研建模语言FML修改模型;支持MaxCompute DDL、Hive DDL、Mysql DDL修改模型。,|,问题3:如何提升模型设计的工作效率?-MaxCompute Select 代码建模,适用于先写ETL进行数据分析,再进行表设计的场景;支持快速将MaxCompute分析SQL直接转化为模型;,|,问题4:如何解决模型设计与数据研发脱节的问题?-模型物化,DataWorks一直倡导的是先设计后开发;支持直接将设计好的默认发布为指定引擎(目前支持MaxCompute、Hologres、EMR hive、CDH Hive,MYSQL)的物理表/视图/物化视图。,|,问题
6、4:如何解决模型设计与数据研发脱节的问题?-简代码,基于从表导入/字段冗余功能建模的场景可以生成非常标准的ETL简代码;,|,问题4:如何解决模型设计与数据应用脱节的问题?-数据资产,数据建模-数仓规划的目录,有选择性的和资产打通。,数据模型应用-数据资产介绍,数据模型的应用-数据资产-3D全景图,|,支持展示企业数据资产全貌。支持查看企业数据资产血缘。具备全局搜索能力;支持查看资产详情;,数据模型的应用-数据资产-资产概览,|,支持多维度查看企业数据资产数据分布及概况;支持