《2017年人工智能在WEB安全中的实践.pdf》由会员分享,可在线阅读,更多相关《2017年人工智能在WEB安全中的实践.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、p工智能在WEB安全d的实践 sModSecurity开始说起 SecRule REQUEST_COOKIES|!REQUEST_COOKIES:/_utm/|REQUEST_COOKIES_NAMES|ARGS_NAMES|ARGS|XML:/*(?i:(?:(union(.*?)select(.*?)from)规范化 ODNRDPQ 规则集 多字段 转换函数 多动作 多阶段?!REVERSE(noinu)+REVERSE(tceles)un?+un/*/ion+se/*/lect+!SQL Tokenizer Parser Analyzer 语法解析 语法解析 关键词解析 语法规则 基本函
2、数 语g分析 语g分析 S94补全 环境感知 注入检测 语g行e 除j5SS94,其tS94 兼容性 兼容性 IiAiKjDBQiLKIiAiKjDBQiLK 本质,系统将尽量补全S94,而S94一旦通过语法分析,只要存在TLHDK,误报就容易出现 误报 误报 机器学i初探 输入 模式识别 输出 典型的机器学i场景 有监督学i 无监督学i VS 648 图像识别 关联新闻 机器学i初探 01 02 03 04 特征选取 算法选择 样本训练 日志审计 特征选取特征选取 基k8aSILad的特征选择,需要结合安全特性,比如关键字、字符特征、甚至请求长度,同时避免过拟合 算法选择算法选择 有监督学i
3、有诸多常算法、SV5、055、贝叶斯等等 样本训练样本训练 选取大量黑白标注样本,同时要控制样本类型的分布 日志审计a回归日志审计a回归 当前有监督学i主要应在离线日志分析d,快速发现未知攻击样本 支持向量机-XSS检测应 SV5的典型问题 特征选取 U:4长度 第三方域名c数 敏感字符 2S关键字 召回率 准确率 93%!90%!结构风险最小,而非经验风险最小 支持向量机-不足 广泛采的4iASV5,在最坏情况下复杂度e7 K2)(训练样本数平方)不适合大规模数据集训练 不适合大规模数据集训练 可u对抗基本变形,只是对原有规则系统提供一定的宽容度 本质a规则无异 本质a规则无异 对原有系统提
4、供一c离线检查机制 准确度无法满足需呀 准确度无法满足需呀 是否能够结合更多的识别方法 隐马尔可夫 最大熵模型 alert(0)!?S1,符号 S2,字符 S%,数字 S4,分割符号 观察序列 S1 S2 S4 S%V4 V2 V%V1 V5 隐含序列 加入词法之后 规范化 分词 向量化 055 200200维特征维特征 召回率召回率80%80%准确率准确率90%90%词集/6gOaJ s浅层学i走向深度神经网络 Input layer!?!0-1?!Hidden layer 1!Hidden layer 2!Hidden layer 3!Residual layer!identity!out
5、put layer!n=256!n=256!ReLU!ReLU!Tanh!n=256!n=256!Softmax!n=256!Tanh!Tanh!0!1!特征提取?!U:4长度 特殊字符数量 2S关键字数量 S94关键字数量 U-?!“数量 UKiLK 参数c数 单参数PDBQiLK 205!3!34.5!143234!285!68!296!7!13850!157!11218!847!1.23e+9!422!1004!177!0!398!13.333!125!数字化特征?!布尔特征 0!0!0!0!0!0!0!1!0!1!0!0!0!1!1!0!0!1!0!0!请求 s浅层学i走向深度神经网络
6、 见证奇迹的时刻 一m奇怪的发现 POST/index/index.php?_c=zip:/d:/KAS/WebSource/ueditor/php/upload/file/20170531/1496216087803962.zip#xxx&_m=captcha cmd=echo nnn,system(dir C:);exit;%2527!=(hex(user()0 x23)%2523 通过不断调整特征,对k变形a绕过有j神奇的抵抗能力,是准确率却无法提升 如果我们在结合:DPMLKPD呢?9595%!?!9090