当前位置:首页 > 报告详情

MICHAE~1.PDF

上传人: 张** 编号:175526 2024-09-13 27页 3.41MB

1、#BHUSA BlackHatEventsWhat Lies Beneath the Surface:What Lies Beneath the Surface:Evaluating LLMs for Offensive Cyber Capabilities through Evaluating LLMs for Offensive Cyber Capabilities through Prompting,Simulation&EmulationPrompting,Simulation&EmulationSpeaker(s):Michael Kouremetis,Marissa Dotter,

2、Alexander ByrneCopyright 2024 The MITRE Corporation.ALL RIGHTS RESERVED.Approved for public release.Distribution unlimited.Case:24-2367#BHUSA BlackHatEventsTeamMarissa Dotter(Speaker)AI,AI SecurityLLMsAlex Byrne(Speaker)AI,LLMsAutonomous Cyber OpsMichael ThreetAI InfrastructureLLMsEthan MichalakAdve

3、rsary EmulationSoftware DevMichael Kouremetis(Speaker)Autonomous Cyber OpsAdversary EmulationGuido ZarrellaMITRE AI Technical FellowDan MartinRed teamingAdversary EmulationGianpaolo RussoAutonomous Cyber OpsOCOCopyright 2024 The MITRE Corporation.ALL RIGHTS RESERVED.Approved for public release.Distr

4、ibution unlimited.Case:24-2367 2#BHUSA BlackHatEventsThe Problem$10 gift card problemIs this LLM an offensive cyber threat?What is actual the level of risk?Y2K problemSource:https:/ proliferation804K public LLMs(HuggingFace)Application of LLMs to cyber domain3.5K public“cyber”datasets(HuggingFace)LL

5、M power increasingChatGPT is estimated to be1-1.5T parameters“No.Well maybe but probably not.LLMs are hard to test;and are very hardto test for offensive cyber capability.Sono?”Copyright 2024 The MITRE Corporation.ALL RIGHTS RESERVED.Approved for public release.Distribution unlimited.Case:24-2367 So

6、urce:https:/ BlackHatEventsCurrent&Emerging EffortsPurple Llama-CyberSecEval 1&2Google Project Zero-NaptimeDeepMind Evaluating Frontier ModelsNTU-PentestGPTUIUC “LLM Agents Hack Websites”Evaluating LLMs for Offensive Cyber Operation(OCO)CapabilitiesCopyright 2024 The MITRE Corporation.ALL RIGHTS RES

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大型语言模型(LLMs)在网络安全领域的应用及其潜在的 offensive cyber 威胁。研究指出,尽管 LLMs 在许多方面具有强大的功能,但目前缺乏对其在实际网络安全操作中可能带来的风险的全面评估。文章提出了当前评估 LLM 安全性的方法存在问题,包括缺乏系统性的评估框架、难以测试以及评估结果不清晰等。 核心数据包括:804K public LLMs (HuggingFace)、3.5K public “cyber” datasets (HuggingFace)、ChatGPT 拥有 1-1.5T 参数。研究提出了一种新的评估方法——CyberLayer Simulation,并介绍了 TACTL(Threat Actor Competency Test for LLMs)测试,覆盖了所有 14 个 MITRE ATT&CK 战术和 46 个 MITRE ATT&CK 技术。 关键点包括:1) LLMs 在网络安全领域的应用及潜在风险;2) 现有评估 LLM 安全性的方法存在问题;3) 提出了一种新的评估方法——CyberLayer Simulation;4) 介绍了 TACTL 测试,覆盖了所有 14 个 MITRE ATT&CK 战术和 46 个 MITRE ATT&CK 技术;5) 呼吁建立可重复、自动化的评估标准,以评估 LLMs 的系统性 OCO 能力。
"AI在网络战中的潜在风险有哪些?" "如何评估大型语言模型在网络领域的应用风险?" "如何确保AI技术在网络防御中的安全性和可靠性?"
客服
商务合作
小程序
服务号
折叠