1、阿里巴巴故障治理领域的 智能运维实践 阿里巴巴集团?GOC事业部?高级技术专家 阿里巴巴故障治理业务流程及挑战 引入智能运维的效果 实战案例:业务异常发现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 双11峰值背后的挑战巨大 业务线的多样和复杂给 服务稳定性带来挑战 ICBUICBU 基础设施 基础设施 淘宝 淘宝 手淘 手淘 菜鸟 菜鸟 天猫 天猫 盒马鲜生 盒马鲜生 蚂蚁金服 蚂蚁金服 村淘 村淘 阿里云 阿里云 搜索 搜索 阿里妈妈 阿里妈妈 安全 安全 AEAE 供应链 供应链 钉钉 钉钉 优酷 优酷 阿里通信 阿里通信 信息平台 信息平台 阿里健康阿
2、里健康 飞猪飞猪 云零售 云零售 16881688 业务数量及规模不断增大 业务形态差异较大 业务关联复杂 线上故障需要统一的治理机制 业务故障统一发现 跨BU故障协同处理 故障的影响面和根因需要统一收口和推送 故障快速恢复需要 统一的机制 阿里巴巴全局故障治理流程 故障发现 故障定级 故障通告 故障辅助定位 处理决策 故障快速恢复 故障复盘 故障演练 全球运行指挥中心 业务流程 业务痛点 传统监控系统误报漏报较多 监控维护成本较大 故障等级定义差异较大 判断条件繁多 千万级别的运维事件,哪些与业务故障相关?跨BU的应用依赖复杂,如何梳理追溯 快速恢复场景稍纵即逝,如何实时决策触发切换?阿里巴
3、巴全局故障治理业务流程和挑战 引入智能运维的场景和效果 实战案例:业务异常发现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 引入智能运维的场景和效果 故障发现 故障定级 故障通告 故障辅助定位 处理决策 故障快速恢复 故障复盘 故障演练 智能时间序列异常检测算法 智能规则 引擎 故障智能分析 系统 故障发现准确率 40%80%故障通告耗时 1分钟 5分钟 根因推荐 依赖人的经验 系统自动推荐可疑事件 故障切换决策时间 1分钟?分钟 人工收集 故障情报 系统自动给出故障情报 阿里巴巴全局故障治理流程和业务痛点 故障治理领域引入智能运维的效果 实战案例:业务异常发
4、现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 实战案例:业务异常发现 异常发现的业务背景 故障等级定义 业务指标监控项 (时间序列)异常点 “淘宝交易量下跌%X是Pn故障”“Pn淘宝淘宝交易创建下跌X%”故障通告 异常发现的业务痛点如何确定基线 问题“下跌15%是和什么相比下跌?”分段静态阈值 无法应对业务局部趋势变化 同环比/过去N周分段均值 无法应用业务整体起伏趋势 不同周期整体趋势的起伏 假日效应 异常发现的业务痛点如何判定异常 业务异常的判定尺度 与曲线本身波动程度相关 与曲线宏观业务量相关 与时间点相关 与业务特性相关 时间序列异常检测的方案选择
5、途径一:端到端分类 途径二:回归(拟合基线)+异常判别 基于机器学习/深度学习 基于时间序列分解 回归 各类机器学习模型 训练样本充足 异常判别 依赖标注 标准不统一 一步到位 回归 各类时序分解算法 方法可解释性强 异常判别 简单策略 复合方法 分步求解 时间序列在线预测:拟合基线 可选方案 分段历史平均 ARIMA Holt-Winters STL 质量控制 量化评估 基线质量分 KPI NAME Holt-Winters 历史数据平滑 ARIMA STL 淘宝交易创建 0.27 0 1.0 1.7 搜索|广告-主搜店铺 0.27 0.38 0.3 1.68 手淘直充成功量 1.38 0.
6、56 1.2 0.3 聚划算交易与创建 0.57 0.39 0.57 2.72 拟合基线的关键步骤:数据预处理 丢点补全 日期类型划分 预测“未来”局部趋势反馈 异常判定X倍-Sigma 时间片切分 根据残差分布进行聚合 每个时间片的X=N+Delta N 与残差相关 Delta 与用户反馈相关 异常判定用户标注反馈 关于标注 为运营而生的打标数据 标注数据质量较差 根据标注调整Delta 容忍标准误差 防止参数抖动 异常判定 误报抑制 冲高回落时的误报抑制 基线预处理 分段策略 基线不准时的误报抑制 基线质量在线检查 压测状态 基线长期偏离状态 投票策略 跳变检测 局部特征 异常检测算法及工