1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站国泰君安数智化运维服务平台可观测体系建设之路黄豁 资深工程师负责基础运维工具平台建设,基于典型运维场景,以运维数据治理为基础、以人工智能算法为辅助,致力于建设有国泰君安特色的数智化智能运维服务平台,多次带领团队通过信通院DevOps技术运营2+级评估01什么是可观测02可观测建设背景03可观测落地实践04总结与展望目录Content01什么是可观测2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站指标日志链路什么是可观测应用1应用2应用N2023 DevOps 国际峰会 暨 BizDevOps 企
2、业峰会 北京站可观测与监控的关系关注系统面向过程被动响应主要关注系统是否有问题面对的是一条条具体的基础设施或应用程序相关的故障告警,核心目的是在于及时发现故障基于告警的触发去被动响应关注业务面向结果主动分析在此基础上更加关注与业务问题形成的具体上下文关联面对的是与业务密切相关的指标,能实时跟踪业务当前状态、快速诊断和解决问题驱动运维人员主动基于多种数据的关联分析,为业务优化提供数据支持监控可观测02可观测建设背景2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站遇到的问题分布式、微服务、云计算等技术的发展,运维对象的数量急剧增长,运维对象之间的关系日益复杂,使得运维人员
3、要处理的问题更加复杂日益复杂的系统架构为确保良好的用户体验,对运维人员在系统发生故障时的排查速度和解决速度提出了更高的要求,尽管系统的复杂性导致故障排查难度随之增加精准快速的排障要求在复杂系统中,仅仅关注单点日志或者单个维度的指标,并不足以帮助我们掌握系统的整体运行状况。无法感知的单点算法指标数据存在数据源多、离散性高、数据结构不一致以及数据获取困难等问题,难以支撑智能运维算法的全面落地质量不高的指标数据03可观测落地实践2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站可观测体系设计思路算法持续研究优化智能算法,赋能运维一线人员,提早发现风险隐患,快速定位故障根因平台
4、推进数智化运维服务平台建设,完善数据集成、数据开发和数据服务等功能,为数据高速流动、实时共享和场景应用提供平台支持数据以用户体验和业务为中心,落地建设多维度、多层次运维指标体系,同时针对指标数据进行专项治理,提升数据质量2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维指标体系构建建立横纵结合、多层次、多维度的运维指标体系,涵盖基础环境、存储、网络、容器云、服务器硬件、操作系统、数据库、中间件九大主题域,共计626个标准监控项,并对指标进行标准化定义、分类和属性划分。具有证券行业特性,可准确量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供数据基础。20
5、23 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站指标数据治理运维数据治理平台指标模型日志模型告警模型配置模型报文模型架构模型知识模型工单模型数据模型管理数据服务目录数据资产目录及多维度管理和标记数据同步与下发元数据管理数据质量告警数据质量规则管理完整性唯一性有效性一致性准确性及时性数据湖库表及kafka结构同步Schema管理库管理Kafka管理数据质量分析数据服务分析数据血缘分析数据标准下发任务数据质量门禁服务数据模型接口服务各类日志结构、指标模型、告警结构、配置模型数据标签管理指标、日志、配置项数据校验结果汇总加工指标实例质量主动报警加工指标实例抽样同步校验加工指标质
6、量标准加工前质量门禁算法接口原始日志报文加工日志报文加工后质量门禁算法接口原始日志报文加工指标实例加工质量门禁算法接口汇总指标抽样同步校验汇总指标质量标准汇总指标质量主动报警汇总指标实例Influxdb运维数据源配置项、应用架构、日志、报文、指标、告警、知识、管理运维数据湖平台指标第三方指标运维数据开发平台 数据质量门禁服务数据质量门禁服务数据质量门禁服务数据质量门禁服务1132汇总数据最终数据指标实例抽样同步任务指标实例校验任务日志实例校验任务日志与指标实例映射任务指标实例与CMDB、指标模型映射任务日志实例抽样同步任务告警实例校验任务告警与指标、CMDB映射任务告警实例抽样同步任务数据治理