《2018年阿里智能化故障治理流程探索和实践.pdf》由会员分享,可在线阅读,更多相关《2018年阿里智能化故障治理流程探索和实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、阿里智能化故障治理流程探索和实践阿里巴巴全局故障治理流程基于AIOps的全局故障治理架构故障治理实战案例新零售/云计算等新业态给故障治理带来的挑战智能运维大图阿里巴巴故障治理背景介绍业务环境给稳定性带来的挑战业务数量巨大订单量49.1万笔/秒业务形态差异较大电商、金融、云计算、物流、新零售、文娱、社交业务关联性复杂用户行为对业务的影响应用调用链路复杂线上故障需要统一的治理机制业务故障统一发现跨BU故障协同处理故障的影响面及根因统一收口推送故障快速恢复需要统一的机制要解决的问题:平衡监控准确率和召回率报警规则维护成本较大故障等级定义仁者见仁故障判断条件繁多千万级别的运维事件哪些与业务故障相关?跨
2、BU故障如何定位根因快速恢复场景稍纵即逝如何实时决策触发切换?如何快速响应并组织故障处理阿里巴巴全局故障治理流程故障发现故障定级故障通告故障辅助定位处理决策故障快速恢复故障复盘故障演练业务流程基于AIOps的全局故障治理架构AIOps故障治理产品架构监控展示异常发现故障通告根因分析信息流转故障恢复相关事件推送智能监控大盘智能基线多指标关联分析自动化通告智能干系人管理可疑应用分析多维下钻故障自定义分析快速恢复切换故障信息检索故障治理生命周期故障治理实战案例故障发现故障定级故障通告故障辅助定位处理决策故障快速恢复故障复盘故障演练通告排查自动化通告核心故障秒级通告故障知识图谱智能水位故障自定义分析人
3、工故障通告人工根据故障等级定义定级业务监控报警慢人工判断故障影响等级并组织通告内容发送一般在5分钟左右人工判断影响是否达到故障不可靠人的主观因素会影响故障判级,不能确保故障通告时效SLA,通告文案可能有错自动化故障通告故障等级定义结构化智能基线计算跌幅数据预处理基线拟合平滑去噪声Modified STL滑动平均插值补缺故障自动定级通告95%准确快速发出业务量下跌count失败率跌至percent自动化故障通告自动化故障通告通过多条监控规则,触发自动化故障通告生成自动化通告内容,发送给业务方故障概述故障等级影响范围监控等级定义从分钟级通告到秒级通告 涵盖了大部分业务,在业务发生重大故障时,一般最
4、快可在1-2分钟内发出报警,3-5分钟发出详细故障通告 报警发出快慢与故障持续时长有直接的关系故障发生报警发出1-2分钟分钟级监控 部分核心业务(如淘宝交易创建、支付宝交易创建),一旦发生故障,等到分钟级报警发出,即使立刻发出通告,报警发出之前业务已经产生巨大损失 故障处理需要争分夺秒缩短故障时长减少故障损失加快报警发现改分钟级监控为秒级监控核心故障秒级通告秒级指标波动大,传统报警策略误报多缩短故障时长减少故障损失加快报警发现接入条件:监控指标每秒数据量级=500趋势预测异常发现通告发出10-20秒故障发生准确率:80%召回率:80%零监控配置成本异常判定孤立森林逻辑回归特征工程集成策略时序分
5、析N-sigma统计特征One-hot自动反馈调节机器学习智能异常检测故障知识图谱故障场景复杂多样,目前暂无法做到所有故障自动化通告。存在大量人工通告人工故障通告,由值班同学根据平台提供的故障信息,结合个人经验,组织发送给处理人。易出错2、通过非结构化的故障通告,如何快速找到故障处理人?快速发现历史相关故障帮助处理?rdma1、人工发送的通告,出错率10%。其中90%由错别字导致WHO??错误通告示例故障知识图谱历史故障信息实体识别产品线、BU、人名、关键词等实体抽取实体关系故障知识图谱新故障通告实体抽取智能纠错历史故障匹配度查询实体匹配度查询原因初步怀疑为RDMA异常故障推荐干系人推荐实体查
6、询人工通告错误率减少50%智能水位 多个系统指标映射为水位指标 取值0-100衡量应用实时容量 通过水位发现业务容量瓶颈,提供扩容依据 不受应用扩缩容影响 不受应用流量成分变化影响 无需应用压测极限值作输入 无需预先假设服务异常CPU临界值多维指标映射,部分权重为线性关系,部分为非线性(阶跃拉升):水位=w*cpu,load,T+f(disk,mem,)业务需求水位特点关键业务包含的应用成百上千,如何快速发现应用容量瓶颈故障自定义分析分机房指标分析查看关联变更基础设施故障分析全链路应用状态分析关联业务分析监控、开发