《邹晟-1-5-10故障治理体系:根因分析快速定位落地实践.pdf》由会员分享,可在线阅读,更多相关《邹晟-1-5-10故障治理体系:根因分析快速定位落地实践.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、1-5-10故障治理体系根因分析快速定位落地实践2017年加入Qunar,近期一直在做稳定性治理方面的事情,包括1-5-10工具体系的建设和落地,其中包含根因分析、预案中心、预案演练等请替换您的照片邹晟公司职位去哪儿网-基础平台DevOps技术专家目录故障治理1-5-10框架未来规划根因分析产品设计与效果根因分析架构设计与落地难点解决BizDevOps 企业峰会城市行-北京站故障治理1-5-10框架01BizDevOps 企业峰会城市行-北京站故障治理1-5-10框架-背景项目名称1.故障率居高不下3.故障处理超时率高2.故障发现与定位慢BizDevOps 企业峰会城市行-北京站故障治理1-5
2、-10框架-定义与度量项目名称1.故障率居高不下3.故障处理超时率高2.故障发现与定位慢单一责任方数据呈现-责任方、受影响方各自呈现单一故障率维度指标-故障率指标与MTBF、MTTR指标并重结果指标与过程指标共同呈现-结果指标与过程指标分别呈现故障治理框架-稳定性度量BizDevOps 企业峰会城市行-北京站故障治理1-5-10框架-定义与度量项目名称1.故障率居高不下3.故障处理超时率高2.故障发现与定位慢BizDevOps 企业峰会城市行-北京站故障治理1-5-10框架-实施策略与工具项目名称根因分析定位辅助业务同学达成故障期间 5 分钟定位的目标BizDevOps 企业峰会城市行-北京站
3、故障治理1-5-10框架-经验总结?用户总是期望 top 1 的结果是准确的,但根因分析有一定概率问题,不可能 100%准确,top3 or top5 有提示辅助作用就是有价值的?1分钟发现、10分钟恢复优先级 5分钟定位根因分析产品设计与效果02BizDevOps 企业峰会城市行-北京站根因分析产品设计与效果准确率高 宽口径:top5 窄口径:top201干扰低 去除误报、闪报02精准快速触达 故障场景:当故障发生时自动把根因分析结果推到群里 核心告警场景:当用户点击到告警页面自动分析已经完成并自动展示结果,提升排障效率03设计目标BizDevOps 企业峰会城市行-北京站根因分析产品设计与
4、效果-故障时根因结果自动推群 推荐时机:当有同学申报故障,自动建群并拉根因机器人进群时,根因系统自动分析受影响应用、业务线相关的分析报告,并做好总结、然后推荐BizDevOps 企业峰会城市行-北京站根因分析产品设计与效果-告警自动展示根因结果 展示时机:当用户通过手机端/网页端跳转到告警页面时 分析时机:当核心业务发生告警时,后台自动分析并保存分析结果BizDevOps 企业峰会城市行-北京站根因分析产品设计与效果-根因准确率根因分析架构设计与落地难点解决03BizDevOps 企业峰会城市行-北京站根因分析架构设计设计思路:模拟研发同学定位问题0102030405圈范围找异常列数据定权重给
5、根因工程实践告警指标Trace链路应用根因BizDevOps 企业峰会城市行-北京站根因分析架构设计BizDevOps 企业峰会城市行-北京站根因分析架构设计-应用维度异常分析01020304KVM&容器:CPU、网络JVM:full GC异常指标单机分析宿主机分析单机分析runtime分析应用 获取 对应 namespacemysql 报警redis 报警mysql 慢查询 同比环比redis 大keymiddleware分析发布事件配置变更压测.event分析根据trace id 从 es 查询异常日志异常类型权重配置异常日志 同比、环比异常日志分析应用BizDevOps 企业峰会城市行-
6、北京站根因分析架构设计-单机分析BizDevOps 企业峰会城市行-北京站根因分析架构设计-单机分析kSigma斜率相似性异常日志单机占比oror异常单机离散异常点筛出斜率不同的实例异常占比高的实例BizDevOps 企业峰会城市行-北京站根因分析架构设计-权重模型01020304静态权重经验权重,根据近期故障原因分布设置,比如发布、配置变更等权重最高 3,异常日志权重设置的是 102动态权重具体分析到的异常case权重,根据各个根因的严重级别来对自己进行升级,避免真正的根因被淹没掉03代表当前故障中此应用的异常所占的权重比,表示了此应用影响当前故障的概