Sunny duan-大模型安全挑战与实践：构建 AI 时代的安全防线.pdf

上传人：山海

编号：627098

2025-04-21

PDF 40页 5.87MB

《Sunny duan-大模型安全挑战与实践：构建 AI 时代的安全防线.pdf》由会员分享，可在线阅读，更多相关《Sunny duan-大模型安全挑战与实践：构建 AI 时代的安全防线.pdf（40页珍藏版）》请在三个皮匠报告上搜索。

1、Sunny Duan目录大模型安全风险大模型安全解决方案大模型对安全的驱动和挑战大模型赋能安全最佳实践大模型安全风险有研究表明，仅需花费 60 美元，就能毒害 0.01%的 LAION-400M（4亿）或 COYO-700M（7亿）数据集，而引入少至 100 个中毒样本就可能导致大模型在各种任务中生成恶意输出。芝加哥大学开发了一个“龙葵”数据投毒工具，通过在生成图像的人工智能程序使用的训练数据中引入误导或混淆的信息，破坏人工智能的学习结果。此工具能够帮助制裁人工智能企业这种不尊重艺术家版权和知识产权的行为，这也是数据投毒工具应用一个有意思的场景。一个程序员使用ChatGPT编码的时候，GPT给

2、出的代码里调用了一个恶意的API地址，然后更要命的是生成的代码里是直接把private_key明文提交给“恶意”API处理，而且程序员在代码里填写了自己的key，然后还运行了，结果是30分钟后他的钱包被盗（转移到FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址）损失差不多$2.5k.智能体安全知识库或记忆模块外部环境风险工具调用风险大模型安全解决方案目标：可靠、可控、安全、向善思路：基于AI对抗AI构建4道防线（外）+2个对齐（内）基于AI对抗AI的思路构建基于“训练数据安全、上线前安全测评、用户Prompt识别、生成内容识别”四道安全防线，对内

3、容安全、业务安全、信息安全（数据安全、提示词注入）风险进行实时监测。大模型安全Benchmark是指用于评估大语言模型安全性的标准和测试方法。建立了内容安全、信息安全（数据安全、提示词注入）等9大类，100+子类的标准，并建立了人工标注、大模型识别、监督模型的标注机制和标准。我们的标准还在持续更新中.带病运行问题：因大模型可解释性差，不能头痛医头，一旦有不正常内容出现需紧急纠正；措施：训练一个安全模型在大模型推理时实时对大模型生成不符合价值观的内容进行纠正，引导模型安全回复Why：让大模型更加安全、可靠、实用What：让大模型价值观、目标与人类价值观、目标保持一致；跷跷板问题：业务会更关注大模

4、型的实用性从而忽略安全性，安全训练数据缺失；措施：添加安全语料、控制样本比例进行混合训练；错题纠正问题：在某类安全问题上表现不好，如中国的市场经济趋势；措施：强化学习（RLHF）是一个有效的方法，通过小量的人类标记数据就可能实现比较好的效果。How：训练阶段、微调阶段、推理阶段智能体安全约束&构建可信外部环境记忆模块安全扫描工具供应链安全工具权限管控大模型对安全的驱动及挑战安全的本质：攻防对抗1、攻防不对等（能力、效率、规模等）2、防御能力不精准（怕误拦-不敢拦）3、告警极多，人员极少（处理不过来-风险漏出）大模型的出现加剧了攻防不对等RSAC 2024发布的报告列出了在通用人工智能（GenA

5、I）影响下可能被提升或淘汰的前十种安全产品。供应商评审、安全编排和自动工作簿、用户行为分析、异常检测和安全意识培训是最有可能被GenAI提升或替代的安全产品。这些产品涉及自动化和分析功能，GenAI可能在这些领域提供显著改进。通用模型：通识数据、通用任务、不可控的训练、幻觉问题等如何支持安全场景？安全大模型：专业知识、特定任务、实时人工监督训练、精准回复训练数据样本类型样本类型来源通用知识C4开源ccgithub.安全知识安全通用知识开源安全网页安全期刊论文恶意软件(OSPTrack、Datadog、MalDICT)代码安全（BigVul、Real-Vul、CVEFixes、FFmpeg+Qe

6、mu、Reveal、D2A.）CVE京东内部京东内部业务内部流量日志（soc流量）代码（京东内部代码）合规知识安全运营数据微调数据指令类型样本类型样本数量通用指令数学3.8万代码1.5万逻辑推理1.2万开放问答5.8万通用写作3万其他11w+安全指令数据安全0.5万代码安全3万+流量安全（SQL注入、PHP注入、JAVA注入、XSS等）1万+威胁情报1万+内容安全（通用内容安全、AI问答内容安全）2.8万安全知识问答1万提示词注入1万代码混淆1.8万安全agentfunction-call1万+tool-plan-

Sunny duan-大模型安全挑战与实践：构建 AI 时代的安全防线.pdf

相关报告