1、数据驱动业务发展-业务指标数据体系建设及集市治理实践张婉绮 京东 数据挖掘工程师|01业务集市现状03未来展望02业务集市治理目录 CONTENT|01业务集市现状业务集市的现状和治理要点业务集市治理背景|数据挖掘及分析数据指导决策业务迭代实践“数据驱动力”通过数据体系系统化地获取及分析数据,为业务决策提供有效支撑,驱动业务发展使用中台能力,系统化构建业务指标体系通过指标及维度呈现波动分析逻辑,帮助各层管理者,实现目标管理形成“业务智慧”及运用智慧持续驱动业务发展的能力。提供高效率规范数仓能力,减少数据分析师线下工作量,提升分析效率。更多关注业务数据交付,不关注集群状态历史集群无序建设业务集市
2、现状|不可知不可取不可用不可控烟囱式开发现象严重模型分散,冗余计算任务浪费过多集群资源。跨层依赖严重业务数据共享度低无统一数据标准跨层依赖严重,读取共享数据有明显问题,存在大量重复读取消耗IO资源,缺乏共享复用。业务线多,耦合性强,但数据共享度低。各业务团队间没有统一数据标准,数据口径难以保持统一,质量参差不齐。业务集市治理要点|传统集市治理工具+标准规范+历史重构0102030504理数据定标准做规划建模型供服务|02业务集市治理实践业务数据体系规范化框架及业务集市治理实践数据体系规范化框架实践|*Eg:全量-增量*用户行为日志流量指标用户指标交易指标*中台基础模型*业务模型数据仓库标准通用
3、基础模型 明细业务配置*商品维表维表主题指标计算 聚合渠道商品店铺品类模式部门*中间表-减少资源浪费在线期间运营效果复盘分析历史数据沉淀新项目规划数据看板展示深度分析其他系统底层支持使用场景覆盖项目维度组合分析交叉维度*营销指标分析支持指标体系基础建设数据仓库刷岗处理向下拆解向上实现精细运营复用度高数据质量逐层保障集群治理业务基础模型规范|用建设业务数仓的思路搭建标准通用化模型。按照不同业务线组织数据,主要进行明细数据的整合,解藕数据源,简化数仓模型使用复杂度。面向分析师通用应用场景,高效获取统一口径,支持常用指标和维度分析。封装标准口径行列裁剪维度扩展跨主题拼接治理思路-更关注模型在整条业务
4、线上的普适性及有效性,而非深陷某个具体业务或指标的拆解分析。订单明细(快照)各业务角度用户身份订单明细(历史至今全量)业务身份121业务身份2业务身份3业务身份4业务身份5用户身份用户宽表封装APP层口径订单行粒度打标3用户/订单主题各指标订单行粒度打标,支持自定义时间粒度,节约计算和存储资源。标准 通用 维度组合集群治理业务通用模型实践|集群治理数据指标体系|应用数据层为专题经营分析服务,模型按照具体的需求进行设计。其数据直接供数据看板产品展现使用,或者推送到其他系统做相关的数据支撑。按分析对象耦合数据,供日常查询,提升易用性。组合度量定义主题衍生指标基础指标业务1对比复合指标指标体系运算业
5、务2集群治理指标维度值统一|指标:访问人数维度1ABC维度2AB维度3AC流量模型指标:下单人数交易模型维度1ABC维度2AB维度3AC指标:转化率衍生指标维度1ABC维度2AB维度3AC?指标:访问人数维度1ABC维度2AB维度3AC流量模型10001 998 777710001 998 777710001 998 7777指标:下单人数交易模型维度1ABC维度2AB维度3AC指标:转化率衍生指标维度1ABC维度2AB维度3AC!根据不同的维度组合进行聚合时,对同一维度组合生成全局唯一场景值编码,可方便快速定位到所需下钻维度。针对Group by/GroupingSets维度组合进行全局排,
6、映射维度字段形成全局唯一编码,并支持反推。select groupdim(维度a,维度b,维度c)返回值:10001返回值:维度a,维度b,维度cselect groupid(10001)select groupdim(维度a,维度b,维度c,维度d,维度e,维度f,grouping_id,s)返回值:10001000111abcdef返回值:10001select groupdim(维度a,维度b,维度c,维度d,维度e,维度f,grouping_id,h)groupdim(维度a,维度b,维度c)返回值:100