当前位置:首页 > 报告详情

大模型智能体的行为安全探索.pdf

上传人: 哆哆 编号:186291 2024-11-01 15页 7.60MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大模型智能体的行为安全问题。大模型智能体,基于大模型构造,是一种能够感知环境,自主规划、决策和使用工具的智能系统,具有通用性、自主性、自适应性、社交能力。文章指出,尽管大模型在内容理解、推理和创作方向取得了显著的进展,但离物理世界存在着鸿沟。知行合一,从内容智能到行为智能,构建大模型智能体,是迈向通用人工智能的关键。 然而,大模型智能体的行为安全存在风险。文章引用了GPT-4模型安全风险意识测评结果,指出所有模型的安全风险意识均有较大提升空间,最优表现的GPT-4仅达72.52%。大模型普遍优于小模型,模型表现与参数量呈现一定程度的正相关。针对内容安全的对齐微调未必能提高智能体行为安全意识。 为了提升大模型智能体的行为安全意识,文章提出研究安全风险分析、安全风险测评和安全对齐机制。研究1对大模型智能体的安全风险进行分析,研究2进行安全风险测评,挑战3探索安全对齐机制。文章还引入了R-Judge,一个对齐于人类共识的智能体行为安全测评平台。 文章指出,可靠的环境反馈是提升模型风险检测能力的有效手段。当给模型提供风险描述时,各模型性能显著提升。利用R-Judge对模型进行指令微调后,风险识别能力获得大幅增强。 总之,大模型智能体在取得显著进展的同时,其行为安全问题亦不容忽视。提升模型风险检测能力,建立可靠的环境反馈机制,将对大模型智能体的行为安全提供有效保障。
"大模型智能体如何实现知行合一?" "大模型智能体的行为安全有哪些风险?" "如何提升大模型智能体的安全风险意识?"
客服
商务合作
小程序
服务号
折叠