1、大规模时间序列分析与根因定位在苏宁的实践苏宁科技集团云计算研发中心监控云&AIOps研发中心2019/11/02主要内容 背景介绍 大规模时间序列分析 未来规划 异常检测平台深度剖析 根因定位背景介绍:Operational 预测参考文献:Tim Januschowski.(2017).Forecasting at Amazon Problems,Methods and Systems背景介绍:智能异常检测传统检测挑战面对海量运维监控数据,需要快速止损,人工决策时间往往是小时级但人肉监控(例如ELK)不现实,决策时间往往是小时甚至天级别。对于异常点往往需要丰富的经验去识别,但是随着时间的推移,
2、业务数据的特点会发生变化,从而过去的经验也需要与时俱进的更新。智能异常检测我们的方法:AI取代缓慢易错的人力决策部分,快速发现问题并且给出决策建 议(分钟级)或提前规避故障。使用历史数据结合AI算法自动更新业务经验知识。主要内容 背景介绍 大规模时间序列分析 未来规划 异常检测平台深度剖析 根因定位大规模时间序列分析传统时间序列预测方法n 针对单个时间序列建模,不能充分利用时间序列之间的相关性n 每个时间序列需要足够的历史数据进行训练n 本质上只能捕捉线性关系,而不能捕捉非线性关系n 无法处理时间序列的冷启动问题:平滑系数自回归(AR):高斯噪声传统时间序列预测方法存在的问题:状态空间模型(S
3、SM):指数平滑(ETS):大规模时间序列分析基于深度学习的大规模时间序列预测方法-DeepAR1、上一时刻的真实值2、当前时刻的特征计算loss网络Encoder(LSTM)Decoder(LSTM)输入1、上一时刻的真实值(训练)/预测值(推理)2、当前时刻的特征预测效果:算法原理及流程:Prosn 对相关的时间序列建立统一的预测模型,适用于海量数据场景n 可以同时进行点预测和概率分布预测n 冷启动预测,实现少量历史数据预测Consn 没有使用attention机制,LSTM对较长的时间序列可能会出现记忆丢失的问题,无法捕获长周期、季节等信息参考文献:Flunkert,V.,Salinas
4、,D.,Gasthaus,J.,and Januschowski,T.(2017).Deepar:Probabilistic forecasting with autoregressive recurrent networks.International Journal of Forecasting,arXiv:1704.04110.大规模时间序列分析基于深度学习的大规模时间序列预测方法-MQRNN计算loss预测效果:算法原理及流程:Fork decoder机制(1)MQRNN在训练时,Encoder每一个时间点的输出都进行Decoding,loss基于所有Decoder的输出计算;(2)由
5、于采用了分位数回归机制,Decoder每个时间点的输出与前一个时间点的输出无关,消除了累积误差的影响。(3)MQRNN输出为分位数矩阵,可以同时得到不同分位数上的预测值。Global_MLPLocal_MLP参考文献:Wen,R.,Torkkola,K.,and Narayanaswamy,B.(2017).A multi-horizon quantile recurrent forecaster.NIPS Workshop on Time Series,arXiv:1711.11053.大规模时间序列分析基于深度学习的大规模时间序列预测方法-MQCNNuMQCNN的Encoder采用类似Wa
6、venet的膨胀CNN,decoder与MQRNN一致Encoder部分示意图Prosn MQC的encoder为CNN,训练速度更快n 通过Dilated Conv能使模型处理更大长度的输入数据Consn 对率型数据预测效果没有计数型好使用DilatedConv可以使CNN的接收域呈指数级增长Dilated Conv1X1 Conv+ResidualCausal ConvInpusSkipsSkip+ReLU1X1ReLU1X1OutputsResidual向前 padding 感受野数量个0K 层ReLUWavenet结构图参考文献:Wen,R.,Torkkola,K.,and Naray