报告预览

大模型智能体的行为安全探索.pdf

编号：186291

PDF 15页 7.60MB 下载积分：VIP专享

下载报告请您先登录！

大模型智能体的行为安全探索.pdf

1、大模型智能体的行为安全探索张倬胜上海交通大学YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体：大模型的“知行合一”2缸中之脑q大模型在内容理解、推理和创作方向取得了显著的进展，但离物理世界存在着鸿沟q知行合一：从内容智能到行为智能，构建大模型智能体，建立迈向通用人工智能的关键纽带大模型智能体框架Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasoning to Language AgentsYSSNLP

2、2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体3q大模型智能体：基于大模型构造，是一种能够感知环境，自主规划、决策和使用工具的智能系统q具有通用性、自主性、自适应性、社交能力。根据环境变化，动态响应，并可在环境中进行自我完善文本图像语音视频大模型系统操控（系统、软件、设备）工具科学发现（药物合成、发现）群体协作（自主通信、演化）软件开发（规划、生成、修正）Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasonin

3、g to Language AgentsYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体的代表性应用4系统操控（Auto-GUI）科学发现（ChemCrow）软件开发（GitAgent）群体协作（MedAgents)智能助理（Copilot）具身智能（VIMA）Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasoning to Language AgentsYSSNLP2024YSSNLP2024YSS

4、NLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体的行为安全风险5关键技术思维链检索器推理校验知识更新外部环境知识库工具API大模型 LLMGUI恶意注入RAG木马后门q丰富的攻击面l 用户、智能体、环境交互q多样化的场景l 操作系统、应用程序、具身控制、智能家居等q更具综合性和隐蔽性第三方API攻击社群信息扩散现有对齐技术的困境q模型缺乏风险意识，补丁式对齐易被绕过q面对广泛的应用场景，劫持风险无处不在YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大模型智能体安全测评和对齐机制研

5、究6研究1:安全风险分析安全风险态势感知安全对抗用例构造研究2:安全风险测评行为记录风险研判动态场景自动测评挑战3:安全对齐机制基于风险感知的漏洞发现基于环境反馈的安全对齐大规模语言模型环境感知规划决策动作执行对齐反馈系统应用系统操控问答对话智能助理软件开发科学发现群体协作知识获取压缩内化思维链工作流安全测评反馈对齐工具使用场景交互YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024R-Judge：大模型智能体行为安全测评q对齐于人类共识的智能体行为安全测评平台l测评大模型在开放智能体场景中的安全风险意识l输入：任务指令、多

6、轮交互记录（用户、智能体、环境）l输出：人工标注的风险提示信息和安全分析结论R-Judge:Benchmarking Safety Risk Awareness for LLM Agents.arXiv preprint arXiv:2401.10019.洞察模型能力与安全对齐的关系，探索内生安全机制与基于反馈的安全对齐YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024风险洞察：领域与场景分布8q7大领域（27个主要应用场景）：覆盖软件编程、操作系统、物联网、应用程序、经济财务、网络应用、健康护理q10类风险类型：隐私泄漏

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（大模型智能体的行为安全探索.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。