1、基于资产健康度量化的小米数据治理实践演讲人:孟熠小米数据技术专家2023 小米数据治理里程碑资产健康度量化及产品化未来规划小米数据治理里程碑数据现状数据成本数据生产数据使用数据安全随着业务增长,存储、计算量日趋增长凌晨资源抢占严重,重点业务无产出保障找不到数据、找到不敢用、烟囱式建设数据无分级隐私数据无保护小米数据治理三级火箭数据基线产保障集团元数据仓库集团数据资产管理平台集团数据公共层数据治理能(质量、安全、成本、规范)数据资产第级夯实基础第级构建能第三级守正出奇构建全面数据治理能力,全面推进数据治理通过保障集团核心数据应用稳定、及时产出,夯实数据生产基础设施建设集团数据资产管理平台,实现集
2、团整体数据健康度80分基线监控预警、资源调度集团公共层稳定及时产出集团元数据仓库,大数据治理大数据产出时效、数据内容质量数据安全,分类分级、隐私合规、日志审计生产成本无访问、重复数据链路治理表owner、注释等规范数据资产门户,数据治理系列能力工具化资产健康分,资产健康度量化及部门健康水平量化资产图谱,资产服务化和价值化资产健康度量化及产品化数据治理总体策略用大数据管理大数据,从存储、计算、规范、质量、安全存储、计算、规范、质量、安全五方面着手治理,实现数据数据资产化资产化。集团元仓是基础、治理是能力、数据资产门户是窗口。集团元数据仓库元数据数据缘数据操作志系统运志成本治理存储/计算安全治理安
3、全等级/隐私合规数据资产户个&部管理户/治理中/数据地图/资产录/资产中质量治理规则监控/变更通知规范治理分层/分类/分级集团数据公共层集团核数据资产,户/设备分类/订单等公数据、指标体系等核数据资产健康度量化模型 模型需要解决的问题 可量化:真实度量数据在存储、计算、质量、安全、规范五方面的实际表现 可解释:数据资产生产、使用纷繁复杂,如何合理规划数据特征,实现模型可解释 有操作:量化后特征需要有配套治理方案和工具支持 健康分基本设定规则 每表一个健康分 百分制,100分最高,0分最低 个人、库/集群、业务板块、各级部门、集团健康分以所属表健康分加权 数据表健康分加权 score=(规范合规
4、健康分*a%+存储健康分*b%+计算健康分*c%+数据质量健康分*d%+数据安全健康分*e%);规范、存储、计算、质量、安全健康分根据每项监控特征来计分,特征可溯源可解释存储健康分 存储分类,实现建议生命周期 存储分级,实现自动化冷备xx天前创建的表热数据HDFS成本存储分区表不考虑TTL,存储健康分80否是最近xx天访问,0分,建议户治理永久保留表(不可再源头表、名单表)否是温数据OSS低成本存储冷数据OSS归档极冷存储SQL可访问SQL不可访问系统建议访问周期TTV2倍TTV否是热数据HDFS成本存储温数据OSS低成本存储删除持SQL访问系统建议访问周期TTV户设置命周期TTL,分数TTV
5、*100/TTL永久保留表:不可再源头表:ods志表 名单表:半年/年周期计算复杂、计算逻辑有变化法回刷、审计需要等业务特殊申请等数据表;可再表:基于源头ods志加的dwm/ads/tmp等、可基于源头数据重新计算回刷的数据;系统建议访问周期TTV(Time to Visit):根据最近xx天分区被访问情况,按定的策略计算的系统建议保留周期值;户设置命周期TTL(Time to Live):户配置可保留的最时间分区,必须=TTV;计算健康分 计算不合理特征识别100*sum(特征分)/count(特征)计算资源量化1 cu=1 cpu 4GB内存运行1s 精细化治理方案 数据倾斜:优化作业 运
6、行出错:修复作业or下线 重复/相似计算:下线/合并重复作业 产出数据未读取:下线作业数据倾斜运时间超过定阈值尾运实例运出错最近3天任务运连续出错0分,否则为1分重复/相似计算计算作业对应表相似度,低于50%计为1分,于50%1-相似度分产出数据未读取最近15天产出数据读取,0分,否则为1分质量健康分 定义质量管理体系 开发数据质量监控系统 质量监控规则高资产等级表配置表级监控1分,否则0配置字段级监控1分,否则0配置及时性监控1分,否则0安全健康分有设置归属的资产目录,1分