《多智能体强化学习大模型初探-郝晓田.pdf》由会员分享,可在线阅读,更多相关《多智能体强化学习大模型初探-郝晓田.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20232023多智能体强化学习大模型初探郝晓田-天津大学-博士在读NOAHS ARK LAB01多智能体决策大模型面临的挑战为什么强化学习需要大模型?多智能体决策大模型有哪些挑战?02动作语义网络ICLR21 Action Semantics Network:Considering the Effects of Actions in Multiagent Systems03置换不变性、置换同变性ICLR-23 Boosting MARL via Permutation Invariant and Permutation Equivaria
2、nt Networks04跨任务自动化课程学习AAMAS-23 PORTAL:Automatic Curricula Generation for Multiagent Reinforcement Learning目录CONTENTNOAHS ARK LABDataFunSummitDataFunSummit#2023202301多智能体决策大模型面临的挑战NOAHS ARK LAB基本概念 什么是合作式多智能体系统?NOAHS ARK LAB游戏AI中的多“英雄”协作AlphaStar(DeepMind)Dota2(OpenAI-5)Honor of Kings(Tencent)多用户-多商
3、品推荐智能仓储多车辆协调(云计算、排产)多资源调度、协同优化滴滴出行多车辆协作调度多车辆运输投递优化现实世界中的大量实际问题可以建模为包含了多个主体的协同控制和优化问题。由多个参与主体,合作地优化某个(或多个)相同的目标函数。基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).Xobs:类型、距离、相对横纵坐标、血量、护甲,action:无
4、操作、上下左右移动、攻击某个敌方单位基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).X 难点1:维度灾难状态观测空间随实体数量指数增长联合动作空间随实体数量指数爆炸 难点2:学习样本效率低 难点3:通用性、泛化性差什么是多智能体强化学习大模型?设计模型使具有比较好的泛化性,一个模型可以解决多个类似问题NOAHS ARK LABStarC
5、raftDota2Honor of Kings相同游戏不同场景不同游戏不同场景MMM21c3s5z2m_vs_1z3s_vs_5z3s5z3s5z_vs_3s6z(星际争霸)更大模型能给强化学习带来什么好处?大模型在自然语言处理、计算机视觉等领域已取得突破性成果(ChatGPT3.5约有1750亿参数)。强化学习领域:BBF(Bigger,Better,Faster)1NOAHS ARK LAB1 Bigger,Better,Faster:Human-level Atari with human-level efficiency,ICML-2023.Environment samples to
6、 reach human-level performance on Atari(over 26 games).(Atari-100k)BBF results in similar performance to model-based EfficientZero with at least 4x reduction in runtime.Larger network+self-supervision+increasing replay ratio+parameter reset多智能体强化学习大模型面临哪些挑战?Different entity numbers and types:不同场景的智能