《京东零售基于主动元数据治理实践与探索.pdf》由会员分享,可在线阅读,更多相关《京东零售基于主动元数据治理实践与探索.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024京东零售基于主动元数据治理实践与探索京东零售基于主动元数据治理实践与探索吕代军-京东-数据架构师数据管理挑战数据管理挑战数据治理体系建设数据治理体系建设主动元数据治理实践主动元数据治理实践总结与未来展望总结与未来展望目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101数据管理挑战数据管理挑战数据管理挑战资产感知弱 找资产难几十万张数据模型大量临时表、无效表大量重复/相识模型 不敢用口径黑盒质量参差不齐,业务难分辨数据架构不敏捷 架构耦合口径、维度扩展耦合预计算耦
2、合 不够敏捷大量刷岗预计算任务调整工作量大,交付周期长大量物化宽表存算资源消耗多开发质量、安全问题 表风险表结构新增、删除缺乏管控表结构修改缺乏管控 运营风险参数、依赖错配开发任务抢占线上资源开发数据写入线上表IT资源成本不断攀升 数据规模持续增长表数量持续增长存储、计算资源消耗不断增长分析场景增多 资源利用低无效表、无效任务占比高冷僵数据占比高重复、相似模型占用大量资源成本、效率、体验0101020203030404DataFunSummitDataFunSummit#202420240202数据治理体系建设数据治理体系建设数据治理思路数据标准数据成本数据架构数据开发数据成本技术牵引数据全链
3、路降本增效 制定数据标准、标准系统化、数据认证 敏捷高效数据架构升级快速灵活支持业务战略目标 开发生产隔离数据安全生产 存算治理体系建设,降低业务/企业运营成本成本、效率、体验数据治理体系建设营销活动资源包资源包资源位楼层分析数据热力图用户画像灰度实验活动进度活动对比活动沉淀资源治理资源治理架构治理架构治理开发治理开发治理账号隔离账号隔离模型隔离模型隔离队列资源隔离队列资源隔离标准治理标准治理统一数据语言标准要素标准要素业务体系业务域主题业务过程主体主体属性更新周期/频率更新方式粒度数据资产数据资产系统化加速系统化加速资产认证相似模型关停并转标准要素系统化,提升维度、指标注册效率逻辑建模、维度
4、建模,智能询表与生产逻辑建模逻辑建模维度1维度2维度指标1指标2 指标逻辑虚拟宽表:维度+指标维度1维度2指标2维度1维度3维度2维度3指标2指标1智能物化与编排智能物化与编排湖仓一体湖仓一体增量状态更新:快照存储转增量存储、计算流批一体化:近实时数据服务在线查询更高效,索引、CK等在线查询指标1指标3指标3任务隔离任务隔离开发生产隔离开发生产隔离元数据能力建设元数据能力建设存储成本计算成本模型分区访问执行时长CPU利用率内存利用率模型认证/精选模型分层任务等级应用场景数据生产血缘数据消费血缘无效表、任务识别模型模型识重治理手段治理手段治理可视治理可视存储治理存储治理无效表识别与下线表生命周期
5、存储格式与压缩优化相似表识别与下线降副本/转EC数据重分布计算治理计算治理无效任务识别与下线低资源利用率任务治理暴力扫描、高频失败任务治理计算算子优化、刷岗批次优化计算引擎优化资源潮汐错峰数据湖更新资源分布资源分布增长归因增长归因治理量治理量重点问题与健康分重点问题与健康分智能生命周期推荐红黑榜红黑榜治理模型建设治理模型建设模型、任务归属识别维度3成本、效率、体验DataFunSummitDataFunSummit#202420240303主动元数据治理实践主动元数据治理实践主动元数据什么是主动元数据?Gartner“一组能够持续访问和处理并支持持续分析的元数据的功能”主动元数据平台不仅停留在
6、智能上,还可以与系统连接与智能决策最终形成行动导向特点:自动生成与更新、持续访问、智能分析、以行动为向主动元数据管理工具核心能力预测诊断行动聚类资源自动分配告警推荐建议分析主动元数据治理实践-存储治理的挑战盲治1、缺乏数据支撑,无法准确掌握表分区消费情况以及分区存储、计算代价。2、缺乏评估体系,20万+模型,数据研发自行评估生命周期值成本高、效率低、主观性强不敢治,不愿治1、数据回填效率低占用开发人员大量工作时间2、担心引发线上问题不能治部门作为零售数仓主要建设方,大量历史数据必须全部保留挑战与能力诉求挑战与能力诉求有支撑省时省力客观有推荐持续极致安全高