1、基于形变分析模型的异常检测系统建设与实践外卖业务特点一、美团外卖业务异常检测现状主要痛点二、形变分析模型介绍模型分析过程告警收敛策略三、业务异常检测系统的整体设计四、异常检测与其他稳定性保障系统内联五、落地情况及实践效果与常用时间序列异常检测方法的差异六、回顾总结解决了美团外卖哪些现实问题美团外卖业务特点-典型曲线 大多数核心业务指标都是呈现周期性、趋势性。午、晚峰值与低峰期相差百倍。日完成订单2千多万单。有规律的时间序列美团外卖业务特点-典型曲线无规律的时间序列不定时营销活动SET化引流操作AVG、TP99等性能指标某服务失败率美团外卖业务特点-主要痛点重大事故时如何避免告警洪潮人工配置告警
2、阈值成本高告警精确率与召回率难平衡典型故障场景分析需要人工介入外卖业务特点一、美团外卖业务异常检测现状主要痛点二、形变分析模型介绍模型分析过程告警收敛策略三、业务异常检测系统的整体设计四、异常检测与其他稳定性保障系统内联五、落地情况及实践效果与常用时间序列异常检测方法的差异六、回顾总结解决了美团外卖哪些现实问题形变分析模型介绍 9 形变分析模型的特点:主要基于对形状的预测,而不是数值的预测。通过多次处理提升告警阈值适应性。形变分析模型的适用范围:有规律的时间序列。形变分析模型的核心公式:归一化互相关(余弦相关性):人是如何进行异常点识别的?主要是通过当前曲线的形状是否符合预期。人眼识别的有规律
3、时间序列会分如下几类:整体抬升或偏移阴跌陡升陡降陡降后更贴近预测(1-余弦相关性)x 基线变化量形变量计算:形变分析模型介绍异常检测形变分析+相关性变点检测+告警收敛策略形变分析(1-余弦相关)x|实时当前值-基线当前值|相关性变点检测告警收敛策略链路维度收敛:同一刻单链路多条曲线告警收敛为一条。按照次数或时间桶进行收敛。图形化告警信息,直观体现前后异常趋势。针对当前值减去基线值趋近于0的超级变点,采用前一分钟数值减去当前值作为补充。(1-余弦相关)x|前一分钟数值-当前值|形变分析模型介绍-模型分析过程 11形变分析模型的主旨是对有规律的时间序列数据进行处理,尽量将数据归一到一个维度。1.确
4、定曲线特征:通过傅里叶变换确定小周期,确定节假日与工作日的差异性。2.选择基准线:这里可以根据历史数据预测曲线形状,也可以根据同源数据进行预测。3.基准形变量计算:预测完毕后需要进行两次处理,尽可能将多维数据归一到一个基准上,计算出对应的形变量告警阈值。4.异常判定:根据基准形变量自动设定不同等级的告警阈值,并结合人工反馈进行自动修正。一次处理,去除形状干扰。二次处理,去除量级影响。形变分析模型整体分析流程形变分析模型介绍-第一次针对形状处理 12归一化互相关(余弦相关性):将整个时间序列归一成一个 0,1 的区间,去除了形状的维度。但是,不同时段的量级对相关性计算影响较大。低峰期量级较小对相
5、关性影响较大。形变分析模型介绍-第二次针对量级还原 13形变量计算:通过对量级的还原,对量级降级,去除量级的影响,最终归一到形变量上。P0P1最终的形变量(1-余弦相关性)x|实时当前值-基线当前值|形变分析模型介绍-模型分析过程图形解释目的:基于对形状的预测,通过两次处理将数据统一在一个维度上进行异常判定与定级1一次处理,进行归一化互相关,去除因时间引起的波峰波谷。2二次处理,通过差值还原量级最终得到形变量,去除量级的影响。P0P1人工反馈阈值敏感或不敏感4通过反馈自动调整告警等级。3形状预测。形变分析模型-告警收敛策略图形化告警,直观展示异常点变化幅度,展示最近时间区间是否发生过异常。通过
6、收集用户行为判断告警的关注度,对低关注度告警进行强收敛。目的:直观展示异常点与变化趋势,在事故时避免出现告警洪潮影响业务开发人员定位问题根因在事故持续时间较长时,每分钟都发送告警会对业务造成干扰,在连续三分钟发送异常告警之后,采用间隔3、5、7、7.直到判断异常恢复为止。根据业务相关性,从强相关的业务链路上收集异常告警事件进行分析,从更高维度给出链路级分析报告。形变分析模型-解决了哪些现实问题案例1:因为全国大范围出现恶劣天气,引起了午晚高峰整体抬升,这种情况不希望出现连续告警。P0P1P2一次处理,将历史样本与基线进行归一化互相关计算,得到数据集看到在业务低峰期时,相关性波动很大,在午晚高峰