《智能体-人类-环境统一对齐原则初探-李鹏.pdf》由会员分享,可在线阅读,更多相关《智能体-人类-环境统一对齐原则初探-李鹏.pdf(61页珍藏版)》请在三个皮匠报告上搜索。
1、智能体-人类-环境统一对齐原则初探李鹏2024年10月13日2大模型智能体迅猛发展 2023年以来大模型智能体受到广泛关注,研究、框架、应用迅猛发展。https:/ et al.2023.A Survey on Large Language Model based Autonomous Agents.arXiv:2308.11432.3智能体历史沿革 智能体概念由来以久,是对人工智能问题的重要研究抽象。Russell,S.J.Artificial intelligence:A modern approach.Pearson Education,Inc.,2010.An agent is any
2、thing that can be viewed as perceiving its environment throughsensors and acting upon that environment through actuators.Stuart J.Russell and Peter Norvig4传统智能体 v.s.大模型智能体 解决开放域问题将是大模型智能体区别于传统智能体的关键特征之一。https:/deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii
3、/;https:/auto-gpt.ai/训练:强化学习+自我对弈数据:专用环境收集的海量数据任务:仅能玩星际争霸2训练:免训练数据:无需专门收集数据任务:可完成多样化任务AlphaStarAutoGPT5大模型智能体现状 当前大模型智能体虽获取广泛关注,但尚未完成在开放域上的效果阶跃。GPT-3ChatGPT大模型智能体潜力初现效果阶跃 通用性 自主性 有效性6典型系统1:OpenAI GPTs 基础版:使用文字配置智能体,可看作系统提示的产品化。进阶版:基础版+工具调用,增加了一定自主性。图片来源:https:/ 可以一定程度实现人类行为的模拟,并观察到涌现行为。目前尚无法胜任大规模人类行
4、为的模拟,模拟可信性也仍需提高。Park et al.,2023.Generative Agents:Interactive Simulacra of Human Behavior.UIST 23.通用性自主性有效性8典型系统3:AI化学家Coscientist 可实际操作特定实验设备完成需要复杂合成步骤的化合物合成。专用系统:智能体在部分环节可以使用搜索引擎,但所有步骤均由人类设计。Boiko et al.,2023.Autonomous Chemical Research with Large Language Models.Nature.通用性自主性有效性9典型系统4:AutoGPT/M
5、etaGPT 人类提出宏观任务,智能体自主完成任务分解并分步执行从而完成宏观任务。最常用测试场景为编写代码,但目前仍然无法胜任大工程。Hong et al.,2023.MetaGPT:Meta Programming for A Multi-Agent Collaborative Framework.ICLR 2024.通用性自主性有效性10典型系统5:Voyager 智能体在Minecraft中自主探索从而逐步学习到技能树。专用系统:理论上可泛化到代码可描述场景,但设计中依赖于特定API抽象。Wang et al.,2023.Voyager:An Open-Ended Embodied Ag
6、ent with Large Language Models.TMLR.通用性自主性有效性11大模型智能体系统现状小结 当前智能体仍处于发展的初级阶段,距离开放域理想系统仍然具有很大差距。典型系统通用性自主性有效性OpenAI GPTsAI化学家斯坦福小镇AutoGPT/MetaGPTVoyager开放域理想智能体12开放域任务的基本构成 智能体、人类、环境是复杂开放域任务的基本构成角色。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.对齐环境规