《从数据质量检查到可观测性——源于DataLeap的数据建设思考》.pdf

编号:122853 PDF 20页 3.91MB 下载积分:VIP专享
下载报告请您先登录!

《从数据质量检查到可观测性——源于DataLeap的数据建设思考》.pdf

1、输入标题Title2023 DataFunCon智能化、自动化,揭秘字节跳动数据质量前沿探索演讲人:周方圆 火山引擎DataLeap团队输入标题Title智能数据质量What&Why&How输入标题Title行业动向国内的互联网行业更彻底的进入了大数据的应用时代:云上大数据体系:数据收集、存储、处理、应用的技术栈加易用、低门槛,同时有更成熟的数据应用工具,如可视化、自动化决策、机器学习数据“用起来”的问题基本的得到了解决。随之而来的是数据治理的问题。以火山引擎的大数据产品为例:输入标题Title行业动向数据质量:为什么要重视数据质量?规模小的时候,速度就是效率,规模大到一定程度时,质量就是效率

2、输入标题Title数据质量的基础概念经典的数据质量保障方法:配置质量检查规则(Assertions)Freshness:数据新鲜度 Data Delay AlarmVolumn:数据量 Missing or Too much data testsAccuracy:数据的正确性 Numeric distribution tests,String pattern testsCompleteness:数据完整性 NULL values testsUniqueness:数据唯一性 Unique key testsIntegrity:数据的主外键正确性 Referential tests输入标题Titl

3、e数据质量的基础概念质量检查(Assertions)是数据开发的单元测试+持续监控数据探查Profiling设置规则Apply Rule例行监控MonitorAssertionsData Quality输入标题Title质量检查方法的问题实际配置情况:表行数,主键重复 80%规则配置渗透率不及预期的原因1.配置繁琐2.依赖经验3.往往是事后补充输入标题Title智能数据质量推荐规则减少规则配置成本协作机制质量也是协作问题链路检查整合数据链路自动检测无须配置,自动检测智能化智能化输入标题Title自动检测无规则:基于自动异常检测算法发现异常无规则的缺点:复杂指标收集的成本较高1.Cardinal

4、ity 数据维度2.Regex 字符串模式匹配3.Percentile 数据分布输入标题Title规则推荐减少指标收集成本:场景推荐规则外部数据入口数据链路开发数据应用模型特征业务应用输入标题Title规则推荐场景核心问题常见推荐规则外部数据入口稳定性、规范性新鲜度、数据量、数值范围、字符串模式.数据链路开发数据模型符合预期重复数据数据应用语义级数据质量真实类型判断、数值范围、字符串模式、时序范围预估、完整性检查.模型特征数据分布漂移数据缺失、数据分布距离、OOV值.业务应用指标监控波动率阈值、异常检测输入标题Title规则推荐适应性数据探查Adaptive Profiling规则推荐-设置R

5、ec Rule&Apply例行监控Monitor场景感知Scenery Strategy自动检测Auto-Detect输入标题Title链路根因诊断数据链路是一个整体,应用层质量问题需要在上游表中追查问题借助DataLeap的字段级全链路血缘功能,配合链路指标收集实现自动根因诊断输入标题Title协作:数据质量协议开发者和应用者的质量预期鸿沟:金额为什么是-1?枚举值为什么增加了?有些视频点击比曝光还多?部分邮件/电话格式无效?XX字段缺失率升高?业务建模特性枚举值增加业务变更不受数仓控制业务处理特性导致数据检验不严格导致(但也不能丢)业务变更/节假日/事件导致数仓需要保证数据质量!基础质量有

6、保证!这些不是质量问题!你要保障什么规则,提需求过来,给你配置好。最终结果往往是往往可能是发生故障后,“运动式”配置一批监控、保障最重要的数据输入标题Title协作:数据质量协议分级质量协议1.General Service Level Agreement:开发者提供的关键质量承诺2.Application Service Level Expectation:使用者预期的质量指标应用者主动参与到质量工作中,多方应用者与开发者形成互动输入标题Title总结:数据质量的四大支柱A

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(《从数据质量检查到可观测性——源于DataLeap的数据建设思考》.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠