《罗森-从概念到实践打造趣丸科技AIOps体系的必由之路.pdf》由会员分享,可在线阅读,更多相关《罗森-从概念到实践打造趣丸科技AIOps体系的必由之路.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、趣丸科技-高级AIOPS开发工程师-罗森从概念到实践,打造趣丸科技AIOps体系的必由之路趣丸科技简介1.AIOps的基本概念与发展现状2.趣丸AIOps的落地实践 2.1.基于NLP舆情分析的故障识别模型 2.2.故障型根因定位算法 2.3.应用资源套餐推荐3.趣丸AIOps在未来规划目录 AIOps,也称智能运维,将人工智能应用于运维领域,基于已有的海量运维数据,通过机器 学习,统计学等方式来进一步解决自动化运维没办法解决的问题。人工运维工具化运维自动化运维智能运维什么是AIOps?为什么需要AIOps?运维监控数据是海量的、高速的、多模态的、价值极大的、但又信噪比极低的。这些数据只有关联
2、起来一起分析时才能发挥出它们最大的价值。AIOps应用场景AIOps的发展现状1.AIOps的基本概念与发展现状2.趣丸AIOps的落地实践 2.1.基于NLP舆情分析的故障识别模型 2.2.故障型根因定位算法 2.3.应用资源套餐推荐3.趣丸AIOps在未来规划遇到的问题 大部分故障是由客服/运营等同学第一时间反馈。缺乏自动化,智能化的故障感知手段。遇到的挑战用户反馈多且文本杂乱无章O1同一时刻可能有多个故障,如何区分O3某时间段内用户高频且相似的反馈如何识别O2如何分辨用户反馈的信息是否为故障文本O4模型实现流程图 1.用户反馈多且文本杂乱无章 2.某时间段内用户高频且相似的反馈如何识别
3、3.同一时刻可能有多个故障,如何区分 4.如何分辨用户反馈的信息是否为故障文本模型实现细节 采用TF-IDF来进行文本向量化 采用余弦相似度进行文本相似度计算文本相似度分析文本聚类 分词:百度LAC(Lexical Analysis of Chinese)降维:PCA 聚类:Dbscan故障文本识别 业务知识:因为运维业务的特殊性,是允许模型存在一定程度的误告,但不允许有漏告!采取“情感分析+白名单”的方案进行文本故障识别。文本情感分析值=0.4(越接近于1,文本越褒义)模型实现细节文本分类模型模型业务效果上线基于NLP舆情分析的故障识别模型后,已定级故障首发率从38.5%提升至 83.2%。
4、24小时分钟级实时智能监控,解放人力,相比人力反馈,平均时延从5分钟下降至1分钟,并且弥补凌晨0点8点用户报障无人响应的盲区。故障级根因定位算法故障级根因定位算法-背景背景当发生大规模故障时,SRE最核心考虑的3个问题是:该故障是否由变更变更引起的?该故障是否由基础设施基础设施引起的?该故障是否由某个某个/些应用些应用引起的?故障级根因定位算法故障级根因定位算法-实现方案实现方案基础设施基础设施核心应用核心应用变更变更DNS、专线、LB、NAT网络、DB相关、第三方时间时间应用应用qpsqps健康指标健康指标日志情况日志情况历史故障概率历史故障概率调用因果关系调用因果关系有无变更有无变更根因定
5、位得分根因定位得分用于衡量应用的故障影响面包括失败率、P99耗时、日志数量趋势图,使用时序 算法判断是否异常。基于故障管理系统的历史故障分类数据基于调用链的因果拓扑图故障级根因定位算法-效果 利用根因定位算法可以准确识别出是因某应用变更导致客户端入口成功率突然下降故障级根因定位算法-效果 凌晨期间有用户反馈app卡顿,利用根因定位算法准确识别是某核心应用监控指标异常导致应用资源套餐推荐-背景 用户根据主观意愿配置HPA时,往往会引起资源浪费 服务成千上万个,SRE手工计算HPA容易不准并且效率极低应用资源套餐推荐-方案 1.从发布系统获取容器化服务列表与K8S配置信息 2.基于业务经验划分应用
6、HPA依赖指标 3.获取各服务HPA依赖指标近7天的数据 4.基于Numeric Outlier计算服务推荐值 5.落库DB,并用Grafana进行展示 应用资源套餐推荐-效果 应用平均CPU资源利用率提升13.4%避免了人工配置不准的问题,单个应用SRE配置HPA所需时长从5min下降至1min1.AIOps的基本概念与发展现状2.趣丸AIOps的落地实践 2.1.基于NLP舆情分析的故障识别模型 2.2.故障型根因定位算法 2.3.应用资源套餐推荐3.趣丸AIOps在未来