当前位置:首页 > 报告详情

专场16.1-字节跳动数据质量管理实践:流批数据质量解决方案-何舒青(脱敏版).pptx

上传人: 2*** 编号:126865 2023-05-01 27页 3.48MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动数据质量平台——Manta的产品架构、功能、优势、劣势以及未来的演进方向。 Manta主要解决离线和流式数据质量监控问题。在离线监控方面,面临数据量大、监控耗时长的挑战,Manta通过优化Spark作业参数、引入OLAP加速等方式,缩短了监控平均运行时长,提高了执行效率。在流式监控方面,Manta通过优化资源使用、引入Flink等手段,提高了流式作业的性能。 Manta的产品功能架构包括数据探查、数据对比、离线数据质量监控和流式数据质量监控。其优势在于调度系统低耦合、事件触发高效、没有Quota限制;劣势在于对于非CPU密集型查询有点重,依赖Yarn调度稳定性不够高。 未来的演进方向包括底层引擎统一流批一体、智能化、便捷化、优化化等。字节跳动数据质量平台已经应用于监控规模万级别、DAU千级别的业务中,对于数据及其生产链路的数据质量管理起到了重要作用。
"如何实现流式数据的实时监控与质量保证?" "面对海量数据,如何优化数据质量监控的效率和准确性?" "数据质量监控在抖音集团的应用规模和挑战是什么?"
客服
商务合作
小程序
服务号
折叠