当前位置:首页 > 报告详情

毛航宇_强化学习(多)智能体 和 大语言模型(多)智能体.pdf

上传人: 哆哆 编号:186322 2024-11-01 24页 961.38KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 强化学习(多)智能体到 大语言模型(多)智能体 十年研究脉络梳理:从2015年的DQN、TRPO、DDPG等深度强化学习基础算法,到2017年的AlphaGo、PPO等代表性工作,再到2018年后的Rainbow、C51、QR-DQN等算法,以及2020年后的分层强化学习(如SEIHAI)、模型基础强化学习(如MBMF)、进化策略等。 2. 强化学习(多)智能体到 大语言模型(多)智能体 代表工作选讲:包括基于深度强化学习的智能体(DRL)、基于Transformer的强化学习智能体(TRL)、基于大语言模型(LLM)的智能体。 3. 企业实践中的心得体会:不考虑限制,大规模多模态智能体是最有潜力的方向之一;学术界有较多限制,可以紧跟Transformer对传统领域的颠覆;工业界考虑PMF,可以紧跟“有约束的”LLM Application。 4. 技术发展方向:学术界有较多限制,可以紧跟Transformer对传统领域的颠覆;工业界考虑PMF,可以紧跟“有约束的”LLM Application。 5. 工业界考虑PMF,约束至LLM能力范畴 + 市场价值大。
强化学习与大语言模型如何实现多智能体协作? 深度强化学习与Transformer在多智能体中的应用有哪些? 大语言模型如何赋能多智能体决策与控制?
客服
商务合作
小程序
服务号
折叠