智能体-人类-环境统一对齐原则初探-李鹏.pdf-三个皮匠报告

智能体-人类-环境统一对齐原则初探-李鹏.pdf

当前位置：首页 > 报告详情

智能体-人类-环境统一对齐原则初探-李鹏.pdf

上传人：哆哆编号：186311 2024-11-01 PDF PDF 61页 15.27MB

该报告所属合集： 中国计算机学会 (CCF)决策智能会议暨RL China 2024嘉宾演讲PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

已收藏

版权投诉

/61

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《智能体-人类-环境统一对齐原则初探-李鹏.pdf》由会员分享，可在线阅读，更多相关《智能体-人类-环境统一对齐原则初探-李鹏.pdf（61页珍藏版）》请在三个皮匠报告上搜索。

1、智能体-人类-环境统一对齐原则初探李鹏2024年10月13日2大模型智能体迅猛发展 2023年以来大模型智能体受到广泛关注，研究、框架、应用迅猛发展。https:/ et al.2023.A Survey on Large Language Model based Autonomous Agents.arXiv:2308.11432.3智能体历史沿革智能体概念由来以久，是对人工智能问题的重要研究抽象。Russell,S.J.Artificial intelligence:A modern approach.Pearson Education,Inc.,2010.An agent is any

2、thing that can be viewed as perceiving its environment throughsensors and acting upon that environment through actuators.Stuart J.Russell and Peter Norvig4传统智能体 v.s.大模型智能体解决开放域问题将是大模型智能体区别于传统智能体的关键特征之一。https:/deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii

3、/；https:/auto-gpt.ai/训练：强化学习+自我对弈数据：专用环境收集的海量数据任务：仅能玩星际争霸2训练：免训练数据：无需专门收集数据任务：可完成多样化任务AlphaStarAutoGPT5大模型智能体现状当前大模型智能体虽获取广泛关注，但尚未完成在开放域上的效果阶跃。GPT-3ChatGPT大模型智能体潜力初现效果阶跃通用性自主性有效性6典型系统1：OpenAI GPTs 基础版：使用文字配置智能体，可看作系统提示的产品化。进阶版：基础版+工具调用，增加了一定自主性。图片来源：https:/ 可以一定程度实现人类行为的模拟，并观察到涌现行为。目前尚无法胜任大规模人类行

4、为的模拟，模拟可信性也仍需提高。Park et al.,2023.Generative Agents:Interactive Simulacra of Human Behavior.UIST 23.通用性自主性有效性8典型系统3：AI化学家Coscientist 可实际操作特定实验设备完成需要复杂合成步骤的化合物合成。专用系统：智能体在部分环节可以使用搜索引擎，但所有步骤均由人类设计。Boiko et al.,2023.Autonomous Chemical Research with Large Language Models.Nature.通用性自主性有效性9典型系统4：AutoGPT/M

5、etaGPT 人类提出宏观任务，智能体自主完成任务分解并分步执行从而完成宏观任务。最常用测试场景为编写代码，但目前仍然无法胜任大工程。Hong et al.,2023.MetaGPT:Meta Programming for A Multi-Agent Collaborative Framework.ICLR 2024.通用性自主性有效性10典型系统5：Voyager 智能体在Minecraft中自主探索从而逐步学习到技能树。专用系统：理论上可泛化到代码可描述场景，但设计中依赖于特定API抽象。Wang et al.,2023.Voyager:An Open-Ended Embodied Ag

6、ent with Large Language Models.TMLR.通用性自主性有效性11大模型智能体系统现状小结当前智能体仍处于发展的初级阶段，距离开放域理想系统仍然具有很大差距。典型系统通用性自主性有效性OpenAI GPTsAI化学家斯坦福小镇AutoGPT/MetaGPTVoyager开放域理想智能体12开放域任务的基本构成智能体、人类、环境是复杂开放域任务的基本构成角色。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.对齐环境规

报告速读

本文主要探讨了智能体-人类-环境统一对齐原则在大模型智能体中的应用。首先，文章指出大模型智能体在解决开放域问题时具有关键特征，但目前仍处于发展的初级阶段。接着，文章提出了智能体走向开放域的准则，即通过对齐自身限制、人类意图和环境规律来实现智能体与人类和环境的统一对齐。然后，文章分析了当前大模型智能体在通用性、自主性和有效性方面的表现，并提出了构建体现人类、环境和智能体三种角色的平台的方法。此外，文章还探讨了代价敏感的大模型智能体、领域增强的大模型智能体和环境感知的大模型智能体等关键问题，并提出了相应的解决方案。最后，文章总结了智能体系统将向达成智能体-人类-环境统一对齐目标持续推进的未来展望。

智能体如何实现与人类意图的统一对齐？智能体如何通过环境感知提升开放域能力？智能体如何实现代价敏感的推理以适应真实环境？

智能体-人类-环境统一对齐原则初探-李鹏.pdf

相关报告