1、京东科技全链路故障诊断智能运维实践演讲人:张静自我介绍01目录京东科技智能运维整体能力02运维算法赋能业务可观测性落地经验03运维算法赋能降本增效落地经验04个人介绍01张静京东科技智能运维算法高级经理智能运维发明专利50项、IEEE国际会议论文收录9篇。带领团队致力于京东智能运维算法研发,应用于京东线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景取得突破。2021数据技术嘉年华解密StarDB国产数据库智能运维的核心算法 ArchSummit2022全球架构师峰会智能运维专题演讲 参与撰写中国信通院云计算智能化运维(AIOps)能力成熟度模型白皮书,第1部分通用能力要求、第2部分
2、系统与工具技术要求。个人介绍第1篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9680175第2篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9762449第3篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9778305第4篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/do
3、cument/9858500第5篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9832400第6篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9904207第7篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/10072770资质证书京东科技智能运维整体能力02国产信创安全可控,提升数字化韧性全栈全场景国产化产品难度逐步增加1、集群规模快速增长
4、,微服务、异地多活等高可用框架需求增强2、系统间关联越来越多3、监控工具众多,但内部黑盒4、告警误报过多,造成告警疲劳,潜在业务风险体系化要求越来越高1、从异常发现到根因定位、预先巡检和预案的重要性2、AIOps已深度实践,减少误报,避免漏报成重点3、需要系统地沉淀运维经验4、从局部治理走向全面治理成本要全面节省1、从业务源头省成本,对业务应用全面合理计费2、公司存量大量3年以上过保机器,仍然正常可用3、运维提升效率,能够处理更多更复杂的场景和应用运维面临的问题整体能力介绍基本目标:降低故障平均修复时间(MTTR),延长系统无故障运行时间(MTBF),提升系统可用性和运维效率。智能运维技术架构
5、图监 控 管 理应用监控图业务层眼学件层心业务监控图可用率图表资 源 管 理运 行 管 理成 本 管 理变 更 管 理事 件 管 理管 控 功 能应用图表资源图标使用率图表流量图标网络图表运行图标资产报表分摊报表变更图表工单图表事件图表告警图表可视化配置告警配置权限配置学件层心数据层脑指 标 监 控 中 心单指标异常检测多指标异常检测指标相似度分析指标聚类分析动态智能基线突升突降识别指标趋势预测波形分析日 志 监 控 中 心日志模式识别日志增量学习日志关联分析日志语义分析日志异常检测日志分类日志序列预测日志模板AI标注告 警 分 析 中 心告警聚类故 障 定 位 中 心多维下钻根因定位告警关联
6、分析告警降噪相似事件召回告警模板提取告警事件分析智能告警定级事件预测全链路根源定位事件根因分析故障注入模型机器指标定位运维知识图谱故障传播关系因果推断运 维 画 像应用画像健 康 体 检资源画像告警健康度网络画像日志画像变更体检亚健康分析应用健康评分链 路 追 踪用户行为轨迹统 一 日 志日志查询客 户 端前 端服 务 端中 间 件数 据 库连接数主 机CPU请求链路链路拓扑实时日志关键词索引缺失低效SQL网络IO云平台时序数据库MySQL大数据平台Hbase平台图数据库ES门户API自 动 化 操 作工单操作资源调度切换/熔断/降级算 法 服 务无阈值监控故障根因定位智能日志分析健康体检链路