澳鹏:2025对抗性提示:大模型安全性基准测试报告(15页).pdf

编号:960245 PDF  DOCX 15页 938.11KB 下载积分:VIP专享
下载报告请您先登录!

澳鹏:2025对抗性提示:大模型安全性基准测试报告(15页).pdf

1、1 对抗性提示:大语言模型对抗性提示:大语言模型 安全性基准测试安全性基准测试 这是一份关于大语言模型(LLM)对抗性提示的 专家指南,其中包含对主流模型在各类危害场景下的基准测试研究。2 对抗性提示:大语言模型对抗性提示:大语言模型 安全性基准测试安全性基准测试 这是一份关于大语言模型(LLM)对抗性提示的 专家指南,其中包含对主流模型在各类危害场景下的基准测试研究。Copyright Appen 2024 All Rights Reserved 3 目录目录 对抗性提示:大语言模型安全性基准测试对抗性提示:大语言模型安全性基准测试 摘要 4 引言 4 背景 4 研究方法 5 结果 6 讨论

2、 7 结论 11 撰稿作者 12 参考文献来源 13 4 摘要摘要 确保大语言模型(LLM)的安全部署,绝非仅靠扩大模型规模或增加训练数据量就能实现。本文介绍了一个针对安全相关提示词的新型评估数据集,并利用该数据集对多个主流开源和闭源模型进行了评估。我们的研究结果表明,社会规范和训练实践等环境因素会在安全关键场景中影响模型行为。1.引言引言 LLM 迅速推动了人工智能(AI)的前沿发展,在跨领域生成类人文本方面展现出令人瞩目的能力,例如起草电子邮件、翻译各种语言到编写代码。这些 LLM 系统正在以前所未有的规模融入各类产品和工作流程,其日益增长的影响力也带来了越来越严重的安全问题。其中一个风险

3、是 LLM 易受对抗性提示的影响,而对抗性提示输入能绕过防护机制,诱导模型生成有害、有偏见或不安全的输出。此类问题并非仅存在于理论层面,而是会对信任、公平性以及负责任的 AI 部署产生现实影响。对抗性提示暴露了生成式模型可能被操纵的漏洞,如绕过过滤机制或触发非预期行为。理解这些漏洞对于开发更稳健、更对齐的 AI 系统至关重要。在本研究中,我们探究了 对抗性提示如何揭示最先进模型中的安全风险,并提出原创研究基准,衡量其在一系列 危害场景下的表现。2.背景背景 大语言模型(LLM)的安全性已引起技术界和商业界的广泛关注。在人工智能领域,“AI安全性”(AI Safety)指降低非预期后果或风险的产

4、生;而“AI安全防护”(AI Security)则主要研究系统抵御外部威胁的防护韧性。早期为指导 LLM 安全开发所做的努力包括 构建不安全输出及失效模式(如毒性、虚假信息、偏见等)的分类体系,为新兴的评估 框架提供依据(Weidinger 等人,2021;Solaiman&Dennison,2021)。与此同时,如 RealToxicityPrompts 这样的数据集为衡量模型输出中的神经毒性退化提供了大规模基准(Gehman 等人,2020);而“宪法式 AI”等微调方法则通过人机协作训练 AI 模型,使其能够相互监控和评估无害性(Bai 等人,2022)。认识到人类和模型行为中均存在隐性

5、 偏见,凸显了审视机器学习研究中所蕴含的价值观的重要性,也强调了开展具有包容性和文化意识的安全评估的必要性(Birhane 等人,2022)。5 对抗性提示技术已成为探测 LLM 漏洞的关键工具。基于提示词的对抗性样本生成研究 表明,对输入进行细微修改就能诱导模型产生不当行为(Yang 等人,2022)。在这些 研究结果的基础上,基于查询的对抗性提示词生成研究进一步证实,通过 API 级别的交互可以成功绕过已部署的内容过滤机制(Hayase 等人,2024)。全面的调查和威胁分析 已对攻击媒介和防御策略进行了系统梳理,以结构化的方式概述了新兴的对抗性威胁及 日益复杂的 AI 对抗环境带来的挑战

6、(Shayegani 等人,2023;Schwinn 等人,2023)。针对社会身份偏见的研究揭示了在对抗性条件下,生成式模型可能会复制或放大有害的 刻板印象(Hu 等人,2024),同时也为利用基准数据集来评估 LLM 的毒性及规避能力奠定了基础(Luong 等人,2024)。近期提出的框架主张采用技术保障、治理机制和人工监督整合的整体性方法来实现 LLM 安全(Van Doren,2025);而思维链提示已被证明可以改善模型推理能力,并在复杂 任务中找出潜在的失效模式(Van Doren 等人,2024)。OpenAI 近期的一份报告(Zaremba,2025)发现,在多种攻击场景中,推理

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(澳鹏:2025对抗性提示:大模型安全性基准测试报告(15页).pdf)为本站 (新科技) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠