1、DataOpsDataOps中的数据可观测性中的数据可观测性实践实践孙朝和孙朝和 大数据技术大数据技术专家专家个人介绍 联易融数科 大数据技术专家 Apache DolphinScheduler Committer Datavane 大数据开源社区创始成员 Datavines 数据可观测性开源项目作者目录 01DataOps和数据可观测性介绍 02案例背景和技术方案 03关键实践 04下一步展望01DataOps和数据可观测性介绍DataOps 介绍维基百科的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps 的定义以后可能会变化
2、,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。什么是数据可观测性?数据可观测性是指组织对其系统内数据的健康状况和性能的全面了解。从本质上讲,数据可观测性涵盖一系列流程和技术,结合使用这些流程和技术后,您可以近乎实时地识别、排除故障和解决数据问题。数据可观测性工具通过自动监控、原因分析、数据血缘和数据健康洞察来主动监测、解决和防止数据异常。这种方法可以带来更健康的数据管道、更高的团队生产力、更好的数据管理,并最终提高用户满意度。数据分布数据分布数据可观测性数据可观测性数据数据量量新鲜度新鲜度变更信息变更信息数据数据血缘血缘02案例背景和技术方案数据可观测性解决我们什么问题?工具
3、太多,没有统一平台进行工作流监控、数据集情况和日志分析等,缺少统一视图。缺少统一视图缺少统一视图缺少多维度的信息来帮助开发者解决问题数据问题解决难度大数据问题解决难度大数据可观测性体系数据可观测性是一套体系和方法论。这套体系由数据概况(DataProfile)、数据质量(DataQuality)、数据血缘(DataLineage)、数据管道监控(PipelineMonitor)和告警服务(Notification)五个核心组件构成。数据概况数据质量数据血缘数据管道监控告警服务数据目录管理、数据分布查询、变更信息监控等数据质量管理、数据比对校验等数据集和数据集、数据集和任务的血缘关系工作流和任务
4、监控、错误管理统一告警服务开源方案调研围绕这 5 个核心组件我们进行了开源方案的调研,针对不同的组件找到相应的开源项目datahubopenmetadatagreat_expectationsgriffincompass无需使用开源数据概况数据质量数据血缘数据管道监控告警服务datahubatlasopenmetadata 开源方案的问题单项解决单项解决不构成体系不构成体系融合和二开难度大融合和二开难度大几个开源项目都能在某些方面解决问题,但是并不能解决所有问题。它们都是元数据管理、数据质量管理领域优秀的项目,但是想要构成完整的数据可观测性体系仍然不够。基于其中一个开源项目融合其他项目或者根据
5、需求进行二开的难度大。我们的解决方案建设数据质量管理体系,实现数据质量检查、数据比对校验和问题管理以 DolphinScheduler 为核心打造数据管道底座建设数据管道监控和告警建设数据源管理、元数据管理的统一中心数据管道底座数据源中心数据质量中心数据管道监控统一告警03关键实践整体架构设计DolphinScheduler 介绍DolphinScheduler分布式和可扩展的开源工作流协调平台 可靠性高去中心化的多 Master 和多Worker 服务架构简单易用 工作流的创建、监控都是可视化,支持API方式集成丰富的使用场景支持多租户和多种任务类型高扩展性支持自定义任务类型,Master和
6、Worker支持动态上下线DolphinScheduler 优化DolphinScheduler分布式和可扩展的开源工作流协调平台 优化常用任务类型提升DataX、Sqoop、HiveCli和SQL等任务类型的易用性开发 Listener 机制 工作流和任务的相关事件推送数据源改造接入统一数据源中心数据源中心的痛点数据源管理分散数据源管理分散每个工具平台都有自己的数据源管理,重复管理,没有统一的数据源管理中心缺少数据探查工具缺少数据探查工具缺少数据概况查询和数据分布查询等功能数据源中心核心功能数据源管理数据源管理元数据管理元数据管理数据概览数据概览 采用插件化设计,内置常用多数据源类型支持数据