《A3--董琼--数据质量智能监控布防实践之路.pdf》由会员分享,可在线阅读,更多相关《A3--董琼--数据质量智能监控布防实践之路.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、数据质量智能监控布防实践之路董琼微众银行 测试专家董琼(dq)工作经历:百度、微众银行先后就职于百度、微众银行,在百度从事百度新闻、百度feed推荐模型测试开发相关工作约7年。2019年加入微众银行,目前主要负责微众银行贷款产品质效保障测试,同时负责科技数据质量专项工作,建设金融领域的数据质量智能测试及监控体系,保障数据的可用性、时效性、准确性。目录01CONTENTS0203背景介绍解决方案实践和效果04总结与展望背景介绍01数据质量问题的产生和预防需求理解系统故障功能缺陷人为操作安全漏洞原因影响数据质量问题个人客户对公客户合作方监管及上级单位行内其他部门直接或间接的资损、客诉、合规风险、时
2、效影响难点:场景复杂-范围广-链路长-隐蔽性-预警难传统方案需求/设计/代码/用例评审变更管控变更测试/用例回归/灰度问题发现监控布防风险预警快速恢复问题定位应急预案 金融产品的数据质量问题原因及影响数据质量监控布防的痛点数据质量监控布防痛点:目标:趋势类监控根据经验配阈值,若覆盖全面量大且调试耗时长,且经验值有效性不足,易误告逻辑规则人工编写,若覆盖全面量大且重复工作量多,且多字段之间特征规则易遗漏成本高、有效性低覆盖不足时效滞后 管理简单,任务类加工数据的监控定时启动,发现问题晚由于各业务团队的投入人力有限:关键表字段的监控覆盖与联机关键交易差距大关键表字段监控维度单一监控范围明确,规则监
3、控通用和智能算法检测并可自动布防(不需要人为铺设),快速发现异常并可做根因分析工程智能算法智能数据质量智能监控解决方案02数据质量智能监控功能地图智能监控工具流智能监控工具流监控范围自动识别监控范围自动识别监控数仓管理监控数仓管理智能监控模型智能监控模型规则检测规则检测根因定位分析根因定位分析曲线检测曲线检测智能监控资产管理智能监控资产管理智能监控效果评估智能监控效果评估数据质量监控门数据质量监控门户户智能监控工具流智能监控资产管理视图智能监控效果评估行内其他系统快速访问入口值波动策略波动曲线库值规则范式关键范围定义关键识别策略关键标注算法通用值曲线异常检测模型异常点检测规则执行规则转换规则结
4、果检测根因源收集资产(制度规范、算法、模型、监控数仓、规则范式库、规则库、告警库等)规则有效性分析告警反馈分析规则范式库数据攻防检测基础计算存储变更分析平台血缘分析平台统一资源调度访问访问访问能力提供数据上报数据上报资产沉淀资产更新数据提供数仓提供规则异常点异常上报值逻辑规则推导模型模型训练/部署/预估通用基础能力服务平台通用基础能力服务平台多渠道告警平台波动计算范式训练批量/实时规则部署根因定位分析统一部署发布平台规则执行平台模型服务平台根因分析算法模型能力提供效果反馈智能监控工具流监控范围自动识别 基于批量拓扑图和血缘关系的关键表范围识别监管报送合作方推送关键批量末端任务1表1表1中间表1
5、中间表1贴源表1贴源表1末端任务2末端任务3表1表2表1表3中间表1中间表3中间表1中间表2贴源表1贴源表2贴源表1贴源表3批量拓扑图大数据血缘智能监控工具流数据质量监控数仓 数据质量数仓生成数据定义获取表1监控表字段分析算法是否string类型元数据服务实际类型标识枚举识别算法枚举标注数据预处理算子计算数仓生成指标曲线库规则库日期类数值类枚举类指标计算合并提交处理算子库空值率、离散度0值率、max、minsum、avg、枚举分布多枚举组合特征分布算子策略匹配 构建全科技统一数据质量监控数仓,为模型智能布控提供基石 降低重复计算、统一调度、最大化资源利用,节约计算成本 各领域丰富数据、利用模型
6、智能化调优,提升监控效果智能监控工具流数据质量监控数仓 数据质量执行平台基本功能架构分析规则库数据标准库指标库校验任务校验定义数据源管理批量计算引擎(Spark)HDFS/HIVETDSQL/TIDB质量校验结果有效性唯一性准确性完整性一致性时效性自定义校验失败处理策略数据质量报告质量报告订阅异常数据统计解析生成作业数据质量问题跟踪失败任务熔断校验失败告警函数库智能监控工具流通用值曲线异常检测模型 数据质量智能监控值曲线异常检测模型布防整体目标难点一:监控误告率大举例:监控字段指标曲线分布差异巨大,需要精细化监控难点二:阈值配置耗人力举例:某业务线的字段指标2人配置2两个月难点三:阈值不科学举