《张静-借助AIOps算法提升业务可观测性在京东科技的实践之路.pdf》由会员分享,可在线阅读,更多相关《张静-借助AIOps算法提升业务可观测性在京东科技的实践之路.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、借助AIOps算法提升业务可观测性在京东科技的实践之路张静京东科技演讲嘉宾张静京东科技智能运维算法高级经理智能运维发明专利50项、IEEE国际会议论文收录10篇。带领团队致力于京东智能运维算法迭代,应用于京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破。2021数据技术嘉年华解密StarDB国产数据库智能运维的核心算法 ArchSummit2022全球架构师峰会智能运维专题演讲 2023DAMS峰会智能运维专题演讲 2023 Gdevops峰会智能运维专题演讲 参与撰写中国信通院云计算智能化运维(AIOps)能力成熟度模型白皮书,第1部分通用能力要求、第2部分系统
2、与工具技术要求。目 录CONTENTS1.京东科技智能运维建设历程2.海量运维日志与监控指标智能化检测实践3.运维算法赋能专家知识融合生成式故障定位4.运维算法+GPT构建京东运维大模型建设及落地路线京东科技智能运维建设历程PART 01传统运维到智能运维的演变智能运维整体能力基本目标:降低故障平均修复时间(MTTR),延长系统无故障运行时间(MTBF),提升系统可用性和运维效率。产品视角全景图监 控 管 理应用监控图业务层眼学件层心业务监控图可用率图表资 源 管 理运 行 管 理成 本 管 理变 更 管 理事 件 管 理管 控 功 能应用图表资源图标使用率图表流量图标网络图表运行图标资产报表
3、分摊报表变更图表工单图表事件图表告警图表可视化配置告警配置权限配置学件层心数据层脑指 标 监 控 中 心单指标异常检测多指标异常检测指标相似度分析指标聚类分析动态智能基线突升突降识别指标趋势预测波形分析日 志 监 控 中 心日志模式识别日志增量学习日志关联分析日志语义分析日志异常检测日志分类日志序列预测日志模板AI标注告 警 分 析 中 心告警聚类故 障 定 位 中 心多维下钻根因定位告警关联分析告警降噪相似事件召回告警模板提取告警事件分析智能告警定级事件预测全链路根源定位事件根因分析故障注入模型机器指标定位运维知识图谱故障传播关系因果推断运 维 画 像应用画像健 康 体 检资源画像告警健康度
4、网络画像日志画像变更体检亚健康分析应用健康评分链 路 追 踪用户行为轨迹统 一 日 志日志查询客 户 端前 端服 务 端中 间 件数 据 库连接数主 机CPU请求链路链路拓扑实时日志关键词索引缺失低效SQL网络IO云平台时序数据库MySQL大数据平台Hbase平台图数据库ES门户API自 动 化 操 作工单操作资源调度切换/熔断/降级算 法 服 务无阈值监控故障根因定位智能日志分析健康体检链路分析归档订阅磁盘I/O预算报表巡检图表容量图表网络请求卡顿监控白屏监控日志回捞页面性能浏览器分析JS错误地域运行商方法性能进程监控业务监控代码行监控消息Web服务缓存智能运维技术架构图海量运维日志与监控指
5、标智能化检测实践PART 02故障预警 运维日志分析 指标异常检测通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。集中管理监控指标,AI算法智能化检测分析海量日志处理,AI算法实时聚类分析指标异常检测指标异常检测赋能容量预测指标异常检测赋能故障预测行业领先水平指标异
6、常检测赋能运维巡检场景三:智能巡检运维日志分析运维日志分析模型运维日志分析案例运维算法赋能专家知识融合生成式故障定位PART 03故障定位1、基于apm调用链AI模型扫描,挖掘故障节点关联性,定位根因2、基于NLP运维日志模版提取与运维知识图谱诊断故障根因AI算法与运维经验融合的根因编排模型多种定位策略灵活编排定位速度快、准确率高、适用范围广生成式故障定位生成式故障定位方案故障根因分钟级内定位故障定位实践案例场景1:apm调用链触发根因分析故障定位实践案例场景2:日志模版触发根因分析故障定位实践案例场景3:告警共性