大模型智能体的行为安全探索.pdf

上传人：哆哆

编号：186291

2024-11-01

PDF 15页 7.60MB

《大模型智能体的行为安全探索.pdf》由会员分享，可在线阅读，更多相关《大模型智能体的行为安全探索.pdf（15页珍藏版）》请在三个皮匠报告上搜索。

1、大模型智能体的行为安全探索张倬胜上海交通大学YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体：大模型的“知行合一”2缸中之脑q大模型在内容理解、推理和创作方向取得了显著的进展，但离物理世界存在着鸿沟q知行合一：从内容智能到行为智能，构建大模型智能体，建立迈向通用人工智能的关键纽带大模型智能体框架Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasoning to Language AgentsYSSNLP

2、2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体3q大模型智能体：基于大模型构造，是一种能够感知环境，自主规划、决策和使用工具的智能系统q具有通用性、自主性、自适应性、社交能力。根据环境变化，动态响应，并可在环境中进行自我完善文本图像语音视频大模型系统操控（系统、软件、设备）工具科学发现（药物合成、发现）群体协作（自主通信、演化）软件开发（规划、生成、修正）Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasonin

3、g to Language AgentsYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体的代表性应用4系统操控（Auto-GUI）科学发现（ChemCrow）软件开发（GitAgent）群体协作（MedAgents)智能助理（Copilot）具身智能（VIMA）Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasoning to Language AgentsYSSNLP2024YSSNLP2024YSS

4、NLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体的行为安全风险5关键技术思维链检索器推理校验知识更新外部环境知识库工具API大模型 LLMGUI恶意注入RAG木马后门q丰富的攻击面l 用户、智能体、环境交互q多样化的场景l 操作系统、应用程序、具身控制、智能家居等q更具综合性和隐蔽性第三方API攻击社群信息扩散现有对齐技术的困境q模型缺乏风险意识，补丁式对齐易被绕过q面对广泛的应用场景，劫持风险无处不在YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体安全测评和对齐机制研

5、究6研究1:安全风险分析安全风险态势感知安全对抗用例构造研究2:安全风险测评行为记录风险研判动态场景自动测评挑战3:安全对齐机制基于风险感知的漏洞发现基于环境反馈的安全对齐大规模语言模型环境感知规划决策动作执行对齐反馈系统应用系统操控问答对话智能助理软件开发科学发现群体协作知识获取压缩内化思维链工作流安全测评反馈对齐工具使用场景交互YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024R-Judge：大模型智能体行为安全测评q对齐于人类共识的智能体行为安全测评平台l测评大模型在开放智能体场景中的安全风险意识l输入：任务指令、多

6、轮交互记录（用户、智能体、环境）l输出：人工标注的风险提示信息和安全分析结论R-Judge:Benchmarking Safety Risk Awareness for LLM Agents.arXiv preprint arXiv:2401.10019.洞察模型能力与安全对齐的关系，探索内生安全机制与基于反馈的安全对齐YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024风险洞察：领域与场景分布8q7大领域（27个主要应用场景）：覆盖软件编程、操作系统、物联网、应用程序、经济财务、网络应用、健康护理q10类风险类型：隐私泄漏

大模型智能体的行为安全探索.pdf

相关报告