《4袁巍-华中科技大学袁巍_异常检测.pdf》由会员分享,可在线阅读,更多相关《4袁巍-华中科技大学袁巍_异常检测.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、异常数据检测及其在智慧水务中的应用日期:2024.03.31报告人:袁巍从网络攻击说起12021年2月,一黑客试图在佛罗里达供水系统中“放毒”俄罗斯卫星网报道截图 2000年,一澳洲黑客攻击昆士兰州的污水管理系统,致使数百万升未经处理的污水倾泻到当地的公园和河流中新浪科技百度图片 2019年8月水利网络安全管理办法(试行)强化利用攻防演练、渗透测试、在线监测等客观、有效方式去发现问题异常和异常检测的概念2异常(离群值):与其余观测结果完全不同,以至于怀疑其是由不同机制产生的观测值2异常检测(Anomaly detection):检测与期望模式存在差异的异常样本的方法2图片源自参考文献1点异常严
2、重偏离正常数据分布范围的观测值上下文异常虽在正常数据分布范围内,但联合周围数据一起分析就会表现出显著的异常集合异常单独看不异常,但一起出现时就属于异常异常检测的挑战、分类和应用3异常检测挑战1:l 定义包含每种可能正常行为的正常区域是非常困难的l 正常行为不断演变,当前正常行为概念未来可能改变l 对手通常会调整行为,使异常观察看起来像是正常的l 为训练模型所需要做的数据标注很多时候都是个难题l.异常检测技术应用:网络入侵检测 恶意软件检测 诈骗用户识别4 产品缺陷检测 水质异常检测异常检测算法3:l 基于距离的异常检测算法l 基于聚类的异常检测算法l 基于密度的异常检测算法l 基于孤立森林的异
3、常检测算法l 基于深度学习的异常检测算法l.基于距离的异常检测方法4基本思想3:正常数据点与周围的点的距离通常较近,而距离周围点大于某一阈值的数据即为离群点算法举例3:K-近邻算法(K-nearest neighbor,KNN):计算每一个数据点 p 到其第 k 个最近邻点的距离,根据距离大小将数据点进行排序,将距离大于预先设定阈值的点判定为离群点算法评价3:1)在处理海量高维数据时执行效率较低;2)距离计算函数选择和算法相关参数选择对检测效果影响较大;3)只能检测全局离群点,难以发现局部离群点基于聚类的异常检测方法5基本思想3:将数据集合划分为多个簇,其中不属于任何一簇或者远离簇中心的数据便
4、是离群点算法举例3:DBSCAN算法核心点:邻域半径范围内有大于等于密度阈值数量的样本点边界点:不符合核心点要求,但在某核心点的邻域半径范围之内离群点:经过迭代更新之后,既不属于核心点也不属于边界点算法评价3:1)不需要预先设定聚类簇的数量2)可以聚类任意形状的数据集3)高维数据可能产生维数灾难;4)密度差异很大时,聚类效果较差5)超参数影响较大naftaliharris基于聚类的异常检测方法6原始数据K-MeansDBSCAN基于DBSCAN去除异常点基于密度的异常检测方法7基本思想3:正常点的邻域数据密度与其周围点的邻域数据密度相似离群点的邻域密度会明显低于其周围点算法举例35:LOF(L
5、ocal Outlier Factor)算法思想:比较当前点与邻居点的局部密度,如果比邻居的小,即异常局部密度:到邻域内点的平均可达距离的倒数可达距离:异常程度:算法评价3:优点:能量化异常程度;能检出局部异常点缺点:受k值选取的影响,簇的密度不均时易误判,计算开销较大知乎局部异常6基于孤立森林的异常检测8基本思想367:Isolation Forest正常点多位于密度高的簇中,需经多次切割才能分离。离群点一般远离其它样本点,更易分离算法评价3:适用检测全局离群点,不擅长处理局部的离群点知乎基于孤立森林的异常检测9训练阶段:使用训练子集构建多棵孤立树测试阶段:向孤立树传递样本以获得异常分数当前
6、样本的平均路径长度所有孤立树的平均高度基于自编码器的异常检测10编码器和解码器通常使用神经网络,通过最小化输入和输出之间的差异来训练编码器和解码器。根据正常数据训练出来的自编码器,通常能够将正常样本重建还原,但却无法较好还原异常样本。当还原误差大于某个阈值时,将其标记为异常图源自李宏毅老师课程,代码案例源自均方误差基于自编码器的异常检测11Robust Android Malware Detection Against Adversarial Example Attacks,