1、DevOps到AIOps-智能化故障处理系统 一.背景 二.问题 三.解决 四.规划 五.Q&A陈永清翼课网DevOps到AIOps-智能化故障处理系统一一.背景背景 二.问题 三.解决 四.规划 五.Q&A陈永清翼课网一.背景一.背景一.背景 1.一个系统,不可能没告警(故障)。2.处理告警很痛苦。3.不处理影响用户满意度。4.不处理影响公司营收。5.处理了,处理好了,产品好用了,用户满意了,公司也有利了。以上,当告警发生时,1.技术人员需要在极短时间,接受各种压力,心情是焦虑的,茫然的,错愕的,担忧的,惆怅的。2.用户需要承受使用产品过程中的不爽,不痛快。3.公司需要承受指责。4.客服需要
2、承受漫骂。DevOps到AIOps-智能化故障处理系统 一.背景二二.问题问题 三.解决 四.规划 五.Q&A陈永清翼课网二.问题-界定 1.如何高效、精准、快速的处理告警(故障)?2.什么时间处理。3.谁处理。4.处理到什么程度。需要 定量、定性 分析需要 定量、定性 分析二.问题-“4个三”定方向 通过4个三,做定量定性分析。三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到痛点。三个集合做决策,告警+决策点+原因 三个集合,找到关联性。三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分
3、钟以上分析出告警原因,现在要系统10秒内分析出结果。二.问题-故障生命周期 通过4个三,做定量定性分析。三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。二.问题-找痛点 通过4个三,做定量定性分析。三个维度找方向,频率最高的、影响最大的、最难处理的 告警 找到痛点。从过去1年,统计告警类型和对应出现次数,按照 出现次数最多,影响最大,最难处理,三个维度,来决定,哪些告警(故障)是痛点,最应该首先被智能化处理的。AAAAA类告警10000次,影响xxx,处理难度sss BBBBB类告警500次,影响xxx,处理难度sss CCCCC类告警400次,影响xxx,处理难度
4、sss二.问题-三个集合找关联 通过4个三,做定量定性分析。三个集合做决策,告警+决策点+原因 三个集合,找到关联性。二.问题-10秒内分析出核心告警原因 通过4个三,做定量定性分析。三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系统10秒内分析出结果。10大类告警 过去人需要10分钟分析出原因 现在需要做到10秒内分析出原因二.问题-“4个三”定方向 通过4个三,做定量定性分析。三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到痛点。三个集合做决策,告警+决
5、策点+原因 三个集合,找到关联性。三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系统10秒内分析出结果。总结,先 解决 最痛的点,从 故障分析 环节入手,达到提升 准确率和效率 的目的。从而 减轻大家的痛苦,让用户满意。DevOps到AIOps-智能化故障处理系统 一.背景 二.问题三三.解决解决 四.规划 五.Q&A陈永清翼课网三.解决 1.业务流 2.数据流 3.架构设计 4.算法三.解决-业务流 1.业务流业务流技术人员线上系统监控系统智能故障处理解决感知分析产生报警收到告警收到告警开始分析开始分析出现异常分析结束分析结束开始解决处理完成获
6、取数据获取数据三.解决-数据流 2.数据流 采集 存储 计算三.解决-数据流-采集 出异常时,技术人员需要排查的监控项数据,需要采集 采集系统特征数据包括4大维度数据:硬件、网络、操作系统、应用程序硬件:硬件如cpu、memory、硬盘、网卡、温度等状态数据。网络:吞吐量流入/流出、吞吐率流入/流程、丢包率等。操作系统:socket状态、cpu、mem、io 等使用量、使用率等。应用程序:并发量、错误率、mysql global status、processlist、innodb status、slow query、lock 性能指标数据等。一个时刻,一共108项。每项,再取3-8个时刻,组成