《2-5 祝佳俊-网易严选全链路数据治理的实践与总结.pdf》由会员分享,可在线阅读,更多相关《2-5 祝佳俊-网易严选全链路数据治理的实践与总结.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、网易严选全链路数据治理的实践与总结演讲人:祝佳俊目录目录CONTENTS面临的问题总结&未来规划治理平台的建设&实践142数据开发治理301面临的困难面临的问题计算资源存储资源数据集成数据处理数据服务数据研发数据源ETL数据仓库数据应用AI Serving特征训练数据流向清洗验证标准化ODSDWDM基础设施与服务面临的问题数据稳定性差任务数逐渐增多,集群计算资源不足导致任务经常失败无法正常产出数据,当大流量时无法保证基线数据完成率。数据链路长数据从集成到被使用链路长,依赖服务和组件多,数据问题定位很困难数据成本压力大数据日积月累,存储成本日益增加,无法准确定位无用数据,数据不敢轻易删除。数据使
2、用效率低表数量随着业务的发展越来越多,需求的频繁变更,用数时常常面临着不知道数据在哪,开发随意无规范02全链路数据治理平台全链路数据治理平台Meta Data CollectorLineage CollectorMetric Collector表生命周期模型任务健康模型任务优先级模型任务资源模型数据产出模型任务调度模型统一元数据服务全链路血缘服务全链路监控服务治理应用治理模型治理服务表治理生命周期管理冷/热数据管理小文件合并任务治理低效任务优化数据倾斜资源配置系统治理引擎优化调度优化统一元数据服务数据源元信息包括了严选业务域中使用到的所有数据源,如日志、mysql、ddb、kafka、hive
3、、hbase 等,例 如mysql数据源就记录了相关的ip、端口、所属服务、数据库名等信息数据表元信息包括表名、schema、访问情况、存储位置等相关信息任务元信息包括任务的类型、依赖、资源配置、计算引擎、调度周期等信息数据服务元信息即数据产品服务,包含服务所属的部门、负责人、产品类型等信息全链路血缘服务DatahubMammutHooks有数报表Lineage AgentLineage CoreLineage ManageLineage StoreMetadata ManageIndex StoreLineage StorageAtomHiveSpark统一元数据服务abcods.abcfo
4、o.bar血缘校验全链路监控服务数据收集数据流处理数据批处理对外服务全链路监控服务任务监控任务资源使用情况流任务消息处理延迟批任务执行时间IO/shuffle Data服务监控YarnHDFSAzkaban.数据治理模型数据处理模型对所以离线调度批任务进行分析,识别生产链路中的关键节点、资源瓶颈、调度信息等,并给出相应的治理策略来使整个调度系统达到最优。表生命周期模型表的生命周期管理模型,针对表的访问次数、优先级来对表进行冷热分类任务健康模型从任务的:产出数据的使用率、任务依赖配置、报警配置、运行时长、资源使用等多个维度来评估一个任务的健康程度数据成本治理存储格式文件数文件大小访问时间访问次数
5、表分级表生命周期模型小文件合并基于血缘错峰合并数据备份&比对&恢复缓存预热对于热数据提前缓存加速查询冷数据处理数据冷备无用数据下线过期数据删除表元数据数据成本治理执行引擎执行历史依赖信息产出信息资源使用冷任务下线产出冷表的数据为冷任务,自动将其下线,节省存储/计算资源引擎自动升级自动化将使用hive计算引擎的任务升级成Spark计算引擎配置优化去除无效依赖补全缺失依赖资源配置优化低效任务处理发生数据倾斜、运行时间1小时、资源消耗(CPU/Memory)的低效任务进行通知报警人工调优任务元数据数仓基线稳定性治理智能分级调度检查依赖检查资源检查执行历史比对运行趋势预测基线期望产出时间调度时间设置任
6、务降级调度资源调整基线正常产出全链路任务智能调度沙盘模拟调度模拟器计算资源治理策略任务集合任务完成时间资源使用数仓基线稳定性治理效果治理后治理前数仓基线稳定性治理03数据开发治理数据开发治理ABCD数据从集成到应用,架构设计不合理,数仓分层设计混乱架构不合理模型设计不规范,数据含义不统一,导致模型开发效率低开发效率低对相同的指标存在不同的口径,数据准确率低计算口径不统一缺少指标的管理,相同指标可能被重复开发指标构建混乱指标管理系统Polaris产品框架功能模块1.录入旧指标管理系统随意起名感性地描述指标含义只登记原