1、广东移动业务支撑系统AIOps应用实践郭 宁 中国移动IT运维专家信通院AIOPS能力成熟度技术规范编制专家负责广东移动业务支撑系统、管理支撑系统运维平台能力的整体规划建设广东移动 信息系统部运维能力建设规划专家 广东移动的IT系统和运维发展AIOps的落地与应用实践推广方法和运维平台建设心得对未来运维的展望管理支撑系统Management Support System负责支撑公司企业运作和办公管理网管支撑系统Operation Support System负责公司移动通信网络的全方位管理业务支撑系统Business Support System负责支撑公司业务营销和计费账务的实现业务系统和产
2、品、行业平台Service Support System面向行业客户的业务系统/产品、行业平台B域业务支撑系统1.规模大2.架构复杂3.正进行演进M域管理支撑系统1.规模小2.数量不少3.技术栈复杂催动运维水平的提升,提供理想的试验田编排化、智能化AIOps自主自愈无人值守运维事件自动化运维操作平台化运维平台具备编排能力部分运维场景智能化运维平台一体化,具备跨模块联合交付能力复杂运维场景智能化绝大部分关键场景应用自动化和智能化技术,实现无人值守终极目标平台化、自动化流程化、标准化运维流程、标准等的建立和管理工具标准化管理2010年2018年2020年2023年20252020年2021年201
3、9年2022年AIOPS场景预研u对异常检测、根因分析、知识图谱等经典场景开展预研重点选取运维痛点场景优先建设u第一期白皮书:质量保障、效率提升、成本管理三大方向61个场景u异常检测、根因分析、告警收敛、智能知识库等27个对象场景落地;u形成算力+算法+知识图谱初步框架;自动驾驶模型对标优化u自动驾驶模型对标优化:从L1L3的水平,整体拔高到平均L3以上的水平,形成多场景全流程串联;u形成算力+算法+数据+知识图谱框架;扩展生产对象及丰富场景u第二期白皮书:三扩充,扩充对象、扩充场景、扩充联动u扩充建设了52个对象场景,打造故障诊断、知识管理联动等高阶场景u形成算力+算法+数据框架感知分析决策
4、执行知识更新五个维度L4-全面L1-初始L2-辅助L3-进阶L5高度实现方式L1L2L3L4人工人工为主系统为辅系统为主人工为辅系统智能异常检测智能变更评估智能故障诊断智能运维机器人监控阈值设置难系统变更风险高故障处理效率低一线投诉处理慢运维四大难题监控管理变更管理故障管理投诉管理p 低算力消耗p 指标聚类p 模型迭代自优化p 多种异常模式识别0201增效主机中间件应用集群业务降本20类资源、100+指标 90多个系统、13000监控点 数 据 特 征工程离线数据接入在线数据接入实时异常检测二次异常检测(异常聚合)检测结果标注(正确/错误)模型迭代优化运维数据 波动特征周期特征趋势特征异常检测
5、模型库监控应用模型同步,用于检测 模型训练部分(分析路径)异常检测与告警判定(生产路径)模型迭代优化 部分“离线数据训练模型”“在线数据异常检测”“模型迭代优化”AI应用三环节异常检测结果BollOCDT算法簇AdaptBOLLEWMADiscordant 数 据 特 征聚类业务价值:2022年触发智能变更评估次数XX,有效规避XX变更风险。变更节点增多系统架构复杂变更频率高70%的生产事故由变更触发决策调整前评估报告1.影响业务2.业务等级3.风险类型4.关联对象5.关联监控变更实施构建业务图谱后评估报告1.评估概要2.变更信息3.评估详情4.指标图表.介入处理 时间序列异常检测(LSTM、
6、指数平滑)离群异常检测(LOF)风险评估效果评估变更管理变更前变更后缴费接口入口服务应用服务应用服务进程进程调用调用依赖依赖主机文件Redis数据库数据库实例数据库实例运行于依赖使用使用关联变更单要素1.变更系统2.变更耗时3.变更对象4.变更操作类型聚类算法DBSCAN:由密度可达关系导出的最大密度相连的样本集合告警时间告警ID8:00:00A1,A2,B2,.8:00:01B2,C1,C2,.8:00:04A1,C1,8:00:05A3,A4,B1,B4,.PA1A2=P12/(1)最小置信度PA2A1=P12/2最小置信度Apriori:挖掘满足最