《8-4 货拉拉大数据治理实践之稳定性保障.pdf》由会员分享,可在线阅读,更多相关《8-4 货拉拉大数据治理实践之稳定性保障.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、货拉拉大数据治理实践之货拉拉大数据治理实践之稳定性保障稳定性保障黎仁全 货拉拉 数据资产负责人/大数据专家|自我介绍|毕业于华中科技大学10年以上大数据治理经验涉及大数据治理/大数据仓库/大数据平台等方向从事过电信、政府、互联网等行业曾就职于蚂蚁集团、平安科技等头部企业现为货拉拉大数据团队数据资产负责人黎仁全数据资产负责人目录目录 CONTENTCONTENT|02大数据稳定性保障体系01背景与挑战03事前-规范与流程04事中-监控与应急05事后-复盘与整改06总结与展望|0101背景与挑战背景与挑战|数据链路的复杂性数据源Hive表指标标签特征|保障链路越来越多随着公司业务增长,保障链路越来
2、越多,保障的任务也越来越多|链路的产出越来越无法保障 2021前3个季度,IT成本在不断攀升,数据产出却越来越糟糕|质量问题层出不穷 从2021前3季度的质量问题来看,指标级的数据质量问题呈现明显增长趋势,而数据表的质量问题也居高不下|数据质量产生原因数据数据生成生成数据数据接入接入数据数据处理处理数据数据服务服务数据变更不通知下游引发故障上游数据灰度或切流没通知下游导致漏抽数据不合理的索引策略会影响下游同步数据业务系统脏数据引发下游质量故障任务测试或发布流程不规范引发生产故障数据加工逻辑错误导致下游大面积数据错误数据质量覆盖不全或配置不合理导致大量质量问题无法提前暴露迁移不彻底导致基于无人维
3、护的旧链路导致数据错误开发同学水平参差不齐,低效代码导致数据延迟产出任务依赖错误导致数据缺失异常缺乏全局的模型规范造成大量的重复建设大量全量抽数任务造成抽数任务超时增量合并全量选择错误合并键引发错误缺乏监控熔点机制导致错误数据污染下游高峰期大批量拉生产库数据可能引发生产事故实时同步数据可能因为链路堵塞延迟产出对外数据口径不统一,数据不一致流向端上数据缺少测试验收流程,导致质量故障业务指标缺少监控,不能及时发现问题|数据稳定性保障思路制定大数据设计规范制定大数据开放规范制定业务数据变更规范制定大数据测试规范制定任务发布规范监控数据产出时间监控表数据质量监控业务指标质量质量问题熔断机制紧急修复数据
4、质量问题生成个人/链路/团队质量健康分登记数据质量事件复盘数据质量故障修复数据质量问题专项治理数据问题跟进整改/治理进度考核数据质量水平事中事中监控监控事前事前预防预防事后事后完善完善10|0202大数据稳定性保障体系大数据稳定性保障体系数据治理职责分工 组织保障平台支撑制度建设项目落地数据治理组织保障:明确职责分工制度建设:制定标准流程,保障落实执行项目落地:贴合业务,追踪成效平台支撑:研发支撑系统,提质增效|数据资产体系架构|稳定性保障体系架构|稳定性评估体系-平台支持完整性分准确性分一致性分质量分度量个人质量分链路质量分团队质量分评分元数据驱动IDP(离线任务)飞流(实时任务)大禹(质量
5、监控)鹰眼(指标监控)个人/链路/团队质量报告(日/周/月)数据质量 完整完整性性一致一致性性及时及时性性准确准确性性及时性分数据是否完整记录数/指标值同环比波动字段是否为空或指标是否缺失记录是否重复数据是否保持规范一致或格式一致字段格式一致表关联一致指标关联一致数据记录是否存在异常或错误字段枚举值异常超出字段值范围字段内容错误数据是否按要求产出到点未产出运行时间过长|稳定性运营机制质量健康分红黑榜通报批评任务禁止新权限保障链路下线禁止新建操作禁止生产操作禁止加入保障治理收益榜单徽章点亮优秀治理个人/团队评选惩罚措施激励措施个人质量分抓手:稳定性评估体系链路质量分团队质量分事件复盘复盘故障复盘
6、故障整改整改/治理整改跟进专项治理|0303事前事前-规范与规范与流程流程|数据规范-控制增量研发流程规范业务数据变更规范数据接入规范任务发布流程规范-确保上游业务侧库表变更及时同步-确保数据接入需求流程规范,抽数不影响业务库等-确保核心数据需要经过测试验收值班oncall机制-值班应急处理流程大数据开发规范-规范命名规则、编码风格等大数据设计规范-规范数仓分层设计,保证模型的稳定大数据测试规范-保障任务发布的规范、合理IDP飞流元初DMS|数据规范-关键举措|0404事事中中-监控与应急监控与应急|监控场景分类数