《2019年万台服务器下的智能运维实践.pdf》由会员分享,可在线阅读,更多相关《2019年万台服务器下的智能运维实践.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站万台服务器下的智能运维实践GOP S 全 球 运 维 大 会 2019上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站多维监控指标概述监控指标可分为三类:1.静态阈值有固定范围,无周期性,固定阈值有效。如CPU、内存使用率。2.需调整的静态阈值无固定范围,无周期性,固定阈值部分有效。如集群响应时间。3.无固定阈值无固定变化范围,有周期性,固定阈值基本无效。如页面访问量。GOP S 全 球 运 维 大 会 2019
2、上 海 站一、固定阈值监控基于固定阈值判别异常l 简单、直观l 难以适应日益复杂的监控需求GOP S 全 球 运 维 大 会 2019上 海 站二、动态计算的阈值基于样本统计分布自动计算动态阈值l3-sigema 样本符合或近似正态分布 易受异常值影响l Tukeys test 不受少量异常值的影响 有时过于敏感GOP S 全 球 运 维 大 会 2019上 海 站三、周期性指标的异常检测背景整体规律性较强短期小幅波动较多适用场景网络出口或业务的进出流量集群和域名的访问量宏观业务数据GOP S 全 球 运 维 大 会 2019上 海 站智能异常检测GOP S 全 球 运 维 大 会 2019上
3、 海 站有监督算法LightGBMGOP S 全 球 运 维 大 会 2019上 海 站智能异常检测的效果基于数据异常程度将异常分为:普通异常、严重异常、陡变异常模型有较好的普适性适用于不同数量级的数据;适用于不同变化规律的数据;适用于不同业务的数据;GOP S 全 球 运 维 大 会 2019上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站1.对告警的需求 告警收敛 精准告警2.告警发送策略 告警分级:邮件-微信-短信-语音 连续m次异常则告警/在m分钟时间段内有n次异常则告警 告警间隔5分钟,最多告警n次 30分钟
4、后未处理则升级,1天后未处理则提醒 告警升级后使用升级后的告警级别和接收人智能故障告警实现的基础GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并合并时间窗口兼顾合并效果和告警时效性合并时间窗口为1分钟合并收益避免海量告警轰炸快速掌握故障情况辅助决策故障根因合并策略相同用户(对同一个人的告警合并)相同告警状态(异常,升级,恢复等)相同状态(异常,升级,恢复等)合并维度根据集群合并根据IP合并根据网段合并根据异常种类合并(宕机、端口不通等)根据宿主机与虚拟机的关系合并GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并维度选择类比决策树算法,基于基尼值最小化自动选择
5、告警合并维度组合;G =1 )+,-+./基尼值输入:数据集=/,5,5/,5维度集=/,5过程:MergeGenerate(,)while domingini=0.5 for FinAdofor k=1 to do+=(L+)/()tempgini=1+,-+./if tempgini minginidomingini=tempginisplitdim=Fif mingini=0.5 doreturn=Ffor k=1 to doMergeGenerate(L+,)GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并告警合并树算法描述:1.遍历全部备选维度,确认当前合并维度2.
6、基于合并维度划分数据集,继续选择合并维度3.到达停止条件后停止解决思路:1.设计告警合并树算法2.基于基尼值计算,得到纯度提升最高的树形划分集群=?异常种类=?合并条数=16合并条数=14合并条数=16合并条数=258tongcheng端口不通异常种类=?服务器IP=?合并条数=2GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并效果GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并突出重点信息GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并减少告警数量告警数量变化趋势告警数量对比告警数量减少76.65%GOP S 全 球 运 维 大 会 20