多智能体强化学习大模型初探-郝晓田.pdf

编号:155421 PDF 36页 6.92MB 下载积分:VIP专享
下载报告请您先登录!

多智能体强化学习大模型初探-郝晓田.pdf

1、DataFunSummitDataFunSummit#20232023多智能体强化学习大模型初探郝晓田-天津大学-博士在读NOAHS ARK LAB01多智能体决策大模型面临的挑战为什么强化学习需要大模型?多智能体决策大模型有哪些挑战?02动作语义网络ICLR21 Action Semantics Network:Considering the Effects of Actions in Multiagent Systems03置换不变性、置换同变性ICLR-23 Boosting MARL via Permutation Invariant and Permutation Equivaria

2、nt Networks04跨任务自动化课程学习AAMAS-23 PORTAL:Automatic Curricula Generation for Multiagent Reinforcement Learning目录CONTENTNOAHS ARK LABDataFunSummitDataFunSummit#2023202301多智能体决策大模型面临的挑战NOAHS ARK LAB基本概念 什么是合作式多智能体系统?NOAHS ARK LAB游戏AI中的多“英雄”协作AlphaStar(DeepMind)Dota2(OpenAI-5)Honor of Kings(Tencent)多用户-多商

3、品推荐智能仓储多车辆协调(云计算、排产)多资源调度、协同优化滴滴出行多车辆协作调度多车辆运输投递优化现实世界中的大量实际问题可以建模为包含了多个主体的协同控制和优化问题。由多个参与主体,合作地优化某个(或多个)相同的目标函数。基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).Xobs:类型、距离、相对横纵坐标、血量、护甲,action:无

4、操作、上下左右移动、攻击某个敌方单位基本概念 合作式多智能体强化学习建模方式NOAHS ARK LABMultiagent Markov Decision Processes(MMDP):Decentralized Partially Observable MDP(Dec-POMDP):Joint policy =1,=argmax=0(,).X 难点1:维度灾难状态观测空间随实体数量指数增长联合动作空间随实体数量指数爆炸 难点2:学习样本效率低 难点3:通用性、泛化性差什么是多智能体强化学习大模型?设计模型使具有比较好的泛化性,一个模型可以解决多个类似问题NOAHS ARK LABStarC

5、raftDota2Honor of Kings相同游戏不同场景不同游戏不同场景MMM21c3s5z2m_vs_1z3s_vs_5z3s5z3s5z_vs_3s6z(星际争霸)更大模型能给强化学习带来什么好处?大模型在自然语言处理、计算机视觉等领域已取得突破性成果(ChatGPT3.5约有1750亿参数)。强化学习领域:BBF(Bigger,Better,Faster)1NOAHS ARK LAB1 Bigger,Better,Faster:Human-level Atari with human-level efficiency,ICML-2023.Environment samples to

6、 reach human-level performance on Atari(over 26 games).(Atari-100k)BBF results in similar performance to model-based EfficientZero with at least 4x reduction in runtime.Larger network+self-supervision+increasing replay ratio+parameter reset多智能体强化学习大模型面临哪些挑战?Different entity numbers and types:不同场景的智能

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(多智能体强化学习大模型初探-郝晓田.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠