1、智能驱动的云原生可观测平台徐彤阿里云可观测高级技术专家Contents目录01云原生可观测智能落地前提02智能化数据处理03以人为本的事件处理04大模型时代下,可观测智能化的新探索云原生可观测智能落地前提Cloud native observable intelligent landing three elements01全面的数据决定智能化的起点AIOpsMachineLearningBig DataPlatformLog日志数据Trace链路数据Metric指标数据Profiling剖析数据优质的数据决定智能化的高度ARMS应用监控 eBPF 版ARMS应用监控云原生可观测可观测可视化Gr
2、afana 版可观测监控Prometheus 版ARMS业务监控ARMS用户体验监控PTS性能测试ARMS应用安全服务日志服务SLS应用生命周期集成EDASSAEACKFC智能告警告警收敛事件管理ChatOps 协同端到端可观测会话追踪全局拓扑持续剖析异构可观测数据源一站式全栈覆盖基础设施监控应用监控容器监控用户体验监控业务监控ARMS智能洞察ARMS云拨测云监控云服务监控多告警源集成应用实时监控服务 ARMS可观测链路OpenTelemetry 版智能洞察数据探索云服务监控智能化数据处理Intelligent data processing02相同告警合并告警降噪告警关联相同根因合并检测分析
3、收敛智能阈值智能分级智能巡检根因触发关键维度定位异常节点定界代码级/SQL 级定位影响面分析可观测智能化场景落地三板斧挑战1:没有放之四海而皆准的“检测”算法统计算法:k-sigma、箱线图、天/周同比、环比等 时序分析/解类算法:EWMA,STL、RobustSTL预测类算法:Holt-winters、ARIMA,Prophet、LSTM等机器学习分类算法:孤立森林、One-Class SVM、各类有监督模型 环比:对比值的变化率 单点比较:!#threshold 多点比较:$%#&!$count_num当前值是否过大或者过小 历史数据|=1.计算样本均值和样本标准差=(!)()(#&,=#
4、$%#&($)+异常检测!+3 or!过去同一周期时刻的值*max_threshold 突降:!过去同一周期时刻的值*min_threshold适用于周期性强&周期固定不变的场景适合数据偏正态/均匀分布的场景图片来源:https:/ 上百个微服务需要 快速、准确、低成本地定位根因 挑战2:微服务下如何快速实现根因“分析”能力定位方案总结目前典型的根因定位可以分成 3 大类多维度定位:当多维度 KPI 发生异常,如何定位到其根因维度,也叫指标下钻分析关联辅助定位:这类定位通过利用指标之间的关系(CMDB 关联,算法包括:相似,频繁项挖掘等),找到故障时不同指标之间的关联关系拓扑/调用链路定位
5、:这一类根因分析一般具有明确的服务调用拓扑关系图和实时调用链路。依托于拓扑图的随机游走/整体建模等方案多维指标 /日志明细 下钻定位微服务拓扑定位关联定位:指标关联辅助定位图片来源:YongqianSun,HotSpot:Anomaly Localization for Additive KPIs with Multi-Dimensional Attributes归因算法水平/垂直逐层下钻关键点1:如何低成本且准确的定界到异常节点我们应该给客户什么样的根因定位系统?不仅仅是一个异常的时间结果,更需要的是,对问题现象的精确描述,问题的根因分析,影响面的分析,和解决问题所需要的关键信息。目前业界的
6、故障诊断方案主流方案是从算法的角度,给出基线,从而快速发现问题。进一步的方案则是定界到异常节点,但是异常节点的问题诊断还是非常依赖于排查人员的经验和技能。故障发现关键特征匹配故障定界推送符合特征的专家经验故障定位 用户手动查看调用链路故障发现单/多指标异常检测故障定界根因分析算法、多指标关联算法;推送用户是机器、服务、日志等最终结果故障定位 无故障发现异常检测算法故障定界结合定界分析算法,模拟专家诊断,推送给用户是一个完整的诊断流程故障定位 打通code、metric、stack、异常日志,定位到代码、SQL级数据算法技能诊断专家异常算法我们的选择关键点2:如何实现代码级/SQL 级根因定位诊