当前位置:首页 > 报告详情

2019年万台服务器下的智能运维实践.pdf

上传人: 云闲 编号:97756 2021-01-01 36页 3.95MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了在万台服务器规模下,智能运维的实践与探索。文章分为四大部分:多维异常检测、智能告警合并、知识图谱构建和智能根因分析。 1. 多维异常检测:监控指标分为静态阈值、需调整的静态阈值和无固定阈值三类,静态阈值适用于CPU、内存使用率等,需调整的静态阈值适用于集群响应时间等,无固定阈值适用于页面访问量等。 2. 智能告警合并:通过合并时间窗口和合并收益,避免海量告警轰炸,快速掌握故障情况。合并策略包括相同用户、相同告警状态、相同状态等。 3. 知识图谱构建:将运维知识进行挖掘和整合,构建运维知识图谱,实现快速查询和自动更新。知识图谱涵盖运维主体、运维主体间关系、运维主体的特性和规律等。 4. 智能根因分析:通过智能算法,对异常事件进行多维度分析,如指标关联分析、服务调用分析、操作关联分析和曲线相似性分析等,实现对故障的快速定位和根因分析。 综上,本文提出了一个全面的智能运维框架,通过多维异常检测、智能告警合并、知识图谱构建和智能根因分析,实现了对万台服务器规模的智能运维实践。
"智能运维如何实现多维异常检测?" "告警合并策略如何优化服务器性能监控?" "知识图谱如何提升智能故障根因分析效率?"
客服
商务合作
小程序
服务号
折叠