《2018年AI制导PDF文件生成技术的探索之旅.pdf》由会员分享,可在线阅读,更多相关《2018年AI制导PDF文件生成技术的探索之旅.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、Fuzzing on train:AI制导PDF文件生成技术的探索之旅目录研究背景方案设计实验分析结论与展望研究背景高结构化样本与PDF文件AI&样本生成LEARN&FUZZ高结构化样本与PDF文件高结构化样本结构复杂,通过规定的语法、语义检查才能被各类解析工具执行语法检查语义检查语法规则语义规则PDF、XML、XSL、JavaScript、HTML等测试输入解析执行Foxit Reader、Adobe Reader、Chrome、Edge、Firefox等不通过通过通过不通过结束结束完成高结构化样本与PDF文件xref0 2570000000000 65535 f0000000017 000
2、00 n0000000212 00000 n0000000231 00000 n0000000251 00000 n0000000825 00000 n0000000876 00000 ntrailer/Info 19 0 R/Root 21 0 R/Size 257/IDstartxref320283%EOF%PDF-1.38 0 objendobjHeaderBodyCross-reference tableTrailerPDF文件所遵从的版本号间接对象地址索引表由一系列的PDF间接对象组成,如字体、页面、图像等,构成了PDF文件的具体内容(按大类可分为带stream不带stream的ob
3、j)指明根对象(Catalog),保存了加密等安全信息,并声明交叉引用表的地址Adobe Systems Incorporated.PDF Reference,6th edition,Nov.2006.http:/ reference 1-7.pdf1310页209 0 obj StreamendstreamendobjAI&样本生成AI制导基于变异的模糊测试基于变异的模糊测试AFL、VUzzer等等基于基于生成生成的的模糊模糊测试测试Peach、Spike、Jsfunfuzz等等样本合法性弱人工参与度高自动化程度高合法性强具有多样性AI&样本生成arXiv 18S&P 17arXiv 17a
4、rXiv 18arXiv 17ASE 17Q-LearningGANPCSGLSTMLSTM/BLSTM/seq2seqCNNLEARN&FUZZ数据集来源:Windows fuzzing team初始测试集:63,000 non-binary PDF objects out of 534 PDF files(seed minimization)实验数据集:1,000 PDF objects模型:LSTM with 2 hidden layers实验环境:4-core 64-bit Windows 10 VMs with 20GB of RAM训练时长:50 epoch 10 hours生成P
5、DF数量:1,000 per 10 epoch测试结果(Edge):Pass rate(70%-97%)、Instruction coverage、Bugs(1)方案设计研究方案数据集构建模型训练生成研究方案Pdf datasetBuild modelModelPdf objsExtract obj/streamNew objsAttach to pdf hostNew pdf filesPdf streamsPrefix stringLSTM,BLSTM,Attention,etc.Effectiveness measureCoverageBugs Structure,parameters1
6、.Dataset construction2.Training3.Generation4.TestingTestsuitSeed minimizationFuzzingInitial samplesTarget APPFoxit Reader,Adobe Reader,Mupdf,Chrome,Edge et al.Cut the textLoad modelpredictVectorizationTrainingCrawlerVectorizationFuzzingSave dictdictionary数据集构建(DATASET CONSTRUCTION)初始PDF样本集:(Testsuit