当前位置:首页 > 报告详情

多智能体强化学习大模型初探-郝晓田.pdf

上传人: 张** 编号:155421 2024-02-15 36页 6.92MB

1、DataFunSummitDataFunSummit#20232023多智能体强化学习大模型初探郝晓田-天津大学-博士在读NOAHS ARK LAB01多智能体决策大模型面临的挑战为什么强化学习需要大模型?多智能体决策大模型有哪些挑战?02动作语义网络ICLR21 Action Semantics Network:Considering the Effects of Actions in Multiagent Systems03置换不变性、置换同变性ICLR-23 Boosting MARL via Permutation Invariant and Permutation Equivaria

2、nt Networks04跨任务自动化课程学习AAMAS-23 PORTAL:Automatic Curricula Generation for Multiagent Reinforcement Learning目录CONTENTNOAHS ARK LABDataFunSummitDataFunSummit#2023202301多智能体决策大模型面临的挑战NOAHS ARK LAB基本概念 什么是合作式多智能体系统?NOAHS ARK LAB游戏AI中的多“英雄”协作AlphaStar(DeepMind)Dota2(OpenAI-5)Honor of Kings(Tencent)多用户-多商

3、品推荐智能仓储多车辆协调(云计算、排产)多资源调度、协同优化滴滴出行多车辆协作调度多车辆运输投递优化现实世界中的大量实际问题可以建模为包含了多个主体的协同控制和优化问题。由多个参与主体,合作地优化某个(或多个)相同的目标函数。基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).Xobs:类型、距离、相对横纵坐标、血量、护甲,action:无

4、操作、上下左右移动、攻击某个敌方单位基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).X 难点1:维度灾难状态观测空间随实体数量指数增长联合动作空间随实体数量指数爆炸 难点2:学习样本效率低 难点3:通用性、泛化性差什么是多智能体强化学习大模型?设计模型使具有比较好的泛化性,一个模型可以解决多个类似问题NOAHS ARK LABStarC

5、raftDota2Honor of Kings相同游戏不同场景不同游戏不同场景MMM21c3s5z2m_vs_1z3s_vs_5z3s5z3s5z_vs_3s6z(星际争霸)更大模型能给强化学习带来什么好处?大模型在自然语言处理、计算机视觉等领域已取得突破性成果(ChatGPT3.5约有1750亿参数)。强化学习领域:BBF(Bigger,Better,Faster)1NOAHS ARK LAB1 Bigger,Better,Faster:Human-level Atari with human-level efficiency,ICML-2023.Environment samples to

6、 reach human-level performance on Atari(over 26 games).(Atari-100k)BBF results in similar performance to model-based EfficientZero with at least 4x reduction in runtime.Larger network+self-supervision+increasing replay ratio+parameter reset多智能体强化学习大模型面临哪些挑战?Different entity numbers and types:不同场景的智能

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了多智能体强化学习大模型面临的挑战及其解决方案。首先,作者提出了类比语言模型对多智能体系统进行描述和建模的方法。其次,介绍了三种重要设计先验:动作语义网络、置换不变性和置换同变性,以及迁移学习和跨任务自动化课程学习。具体来说,动作语义网络考虑了不同动作对其他智能体的影响,置换不变性和置换同变性网络能有效降低状态和观测空间维度,迁移学习和跨任务自动化课程学习能提高学习效率。作者还通过实验验证了这些方法的有效性,例如在StarCraft Multiagent Challenge和Google Research Football等游戏中取得了显著成果。最后,作者表示欢迎有兴趣的人士加入天津大学强化学习实验室,共同推进这一领域的研究。
"多智能体强化学习大模型挑战有哪些?" "如何设计动作语义网络和置换不变性网络?" "跨任务自动化课程学习如何提升多智能体学习效率?"
客服
商务合作
小程序
服务号
折叠