2017年阿里巴巴故障治理领域的智能运维实践.pdf

编号:95397 PDF 41页 1.96MB 下载积分:VIP专享
下载报告请您先登录!

2017年阿里巴巴故障治理领域的智能运维实践.pdf

1、阿里巴巴故障治理领域的 智能运维实践 阿里巴巴集团?GOC事业部?高级技术专家 阿里巴巴故障治理业务流程及挑战 引入智能运维的效果 实战案例:业务异常发现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 双11峰值背后的挑战巨大 业务线的多样和复杂给 服务稳定性带来挑战 ICBUICBU 基础设施 基础设施 淘宝 淘宝 手淘 手淘 菜鸟 菜鸟 天猫 天猫 盒马鲜生 盒马鲜生 蚂蚁金服 蚂蚁金服 村淘 村淘 阿里云 阿里云 搜索 搜索 阿里妈妈 阿里妈妈 安全 安全 AEAE 供应链 供应链 钉钉 钉钉 优酷 优酷 阿里通信 阿里通信 信息平台 信息平台 阿里健康阿

2、里健康 飞猪飞猪 云零售 云零售 16881688 业务数量及规模不断增大 业务形态差异较大 业务关联复杂 线上故障需要统一的治理机制 业务故障统一发现 跨BU故障协同处理 故障的影响面和根因需要统一收口和推送 故障快速恢复需要 统一的机制 阿里巴巴全局故障治理流程 故障发现 故障定级 故障通告 故障辅助定位 处理决策 故障快速恢复 故障复盘 故障演练 全球运行指挥中心 业务流程 业务痛点 传统监控系统误报漏报较多 监控维护成本较大 故障等级定义差异较大 判断条件繁多 千万级别的运维事件,哪些与业务故障相关?跨BU的应用依赖复杂,如何梳理追溯 快速恢复场景稍纵即逝,如何实时决策触发切换?阿里巴

3、巴全局故障治理业务流程和挑战 引入智能运维的场景和效果 实战案例:业务异常发现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 引入智能运维的场景和效果 故障发现 故障定级 故障通告 故障辅助定位 处理决策 故障快速恢复 故障复盘 故障演练 智能时间序列异常检测算法 智能规则 引擎 故障智能分析 系统 故障发现准确率 40%80%故障通告耗时 1分钟 5分钟 根因推荐 依赖人的经验 系统自动推荐可疑事件 故障切换决策时间 1分钟?分钟 人工收集 故障情报 系统自动给出故障情报 阿里巴巴全局故障治理流程和业务痛点 故障治理领域引入智能运维的效果 实战案例:业务异常发

4、现 实战案例:故障智能定级 智能运维项目落地的建议 实战案例:故障智能分析的探索 实战案例:业务异常发现 异常发现的业务背景 故障等级定义 业务指标监控项 (时间序列)异常点 “淘宝交易量下跌%X是Pn故障”“Pn淘宝淘宝交易创建下跌X%”故障通告 异常发现的业务痛点如何确定基线 问题“下跌15%是和什么相比下跌?”分段静态阈值 无法应对业务局部趋势变化 同环比/过去N周分段均值 无法应用业务整体起伏趋势 不同周期整体趋势的起伏 假日效应 异常发现的业务痛点如何判定异常 业务异常的判定尺度 与曲线本身波动程度相关 与曲线宏观业务量相关 与时间点相关 与业务特性相关 时间序列异常检测的方案选择

5、途径一:端到端分类 途径二:回归(拟合基线)+异常判别 基于机器学习/深度学习 基于时间序列分解 回归 各类机器学习模型 训练样本充足 异常判别 依赖标注 标准不统一 一步到位 回归 各类时序分解算法 方法可解释性强 异常判别 简单策略 复合方法 分步求解 时间序列在线预测:拟合基线 可选方案 分段历史平均 ARIMA Holt-Winters STL 质量控制 量化评估 基线质量分 KPI NAME Holt-Winters 历史数据平滑 ARIMA STL 淘宝交易创建 0.27 0 1.0 1.7 搜索|广告-主搜店铺 0.27 0.38 0.3 1.68 手淘直充成功量 1.38 0.

6、56 1.2 0.3 聚划算交易与创建 0.57 0.39 0.57 2.72 拟合基线的关键步骤:数据预处理 丢点补全 日期类型划分 预测“未来”局部趋势反馈 异常判定X倍-Sigma 时间片切分 根据残差分布进行聚合 每个时间片的X=N+Delta N 与残差相关 Delta 与用户反馈相关 异常判定用户标注反馈 关于标注 为运营而生的打标数据 标注数据质量较差 根据标注调整Delta 容忍标准误差 防止参数抖动 异常判定 误报抑制 冲高回落时的误报抑制 基线预处理 分段策略 基线不准时的误报抑制 基线质量在线检查 压测状态 基线长期偏离状态 投票策略 跳变检测 局部特征 异常检测算法及工

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2017年阿里巴巴故障治理领域的智能运维实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠