当前位置:首页 > 报告详情

张希_RLChina talk1126_watermark.pdf

上传人: 张** 编号:155587 2024-02-15 42页 8.30MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了如何利用大型语言模型(LLMs)和决策基础模型(DBMs)构建智能体学习与决策的强化学习世界模型。文章首先比较了主动学习和被动学习范式,然后介绍了部分观测MDP(POMDP)模型,以及如何利用深度强化学习(DRL)算法如政策评估和改善。文章还讨论了如何利用LLMs在复杂、长时序任务中训练目标对齐的智能体,并提出了在决策中使用LLMs的一些挑战和解决方案。 关键数据包括: 1. Dreamer系列算法在Minecraft中自主收集钻石的能力。 2. 使用LLM作为共同感知的 world model 和 heuristic policy 的概念。 3. 计算RL中我们的设计,如状态抽象和表示变换。 4. 利用对比学习架构和政策相似性度量来提高强化学习的一般化能力。 5. 零样本泛化在深度强化学习中的研究,包括元学习、鲁棒RL、表示学习、多任务学习和对抗性鲁棒RL等。 文章最后提出了关于如何使用自我博弈在世界模型中进行学习的问题,并指出人类水平的概念和大师级别的技能在哪个领域更具挑战性。
"LLMs如何助力强化学习?" "世界模型如何塑造AI智能体?" "LLMs在决策制定中的潜力何在?"
客服
商务合作
小程序
服务号
折叠