当前位置:首页 > 报告详情

杜雅丽_MAL tutorial_watermark.pdf

上传人: 张** 编号:155567 2024-02-15 65页 13.64MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 介绍了多智能体系统(Multi-Agent Systems)的类型,包括战略情况(如游戏)、纯动机混合动机、纯冲突(零和)、纯共同利益等。 2. 详细解释了马尔可夫博弈(Markov Games)的定义和特点,包括全局状态的可见性、个体行动的选择、状态转换、个体奖励等。 3. 讨论了多智能体马尔可夫决策过程(MDP)和部分可观察马尔可夫博弈(POMG)的定义和应用。 4. 分析了多智能体合作中的挑战,如非平稳性和可扩展性、部分和噪声观测、大量智能体、协调探索、与新伙伴的合作、即兴团队工作能力、零样本人机协调等。 5. 介绍了团队马尔可夫博弈中的信用分配和混合动机马尔可夫博弈中的异质激励问题。 6. 讨论了评估基准,如SMAC(StarCraft Multi-Agent Challenge)、PettingZoo、Melting Pot、Overcooked AI等。 7. 总结了多智能体合作在团队游戏中的学习范式、解决方案方法、信用分配、通信、泛化等方面的研究进展。 8. 介绍了决策结构,包括环境、智能体、中心控制器等。 9. 讨论了学习范式,包括独立学习、集中学习、集中学习-分散执行(CTDE)等。 10. 介绍了扩展,包括通信、信用分配、与新伙伴的基于团队的协调等。 11. 总结了具有通信的代表性算法,如集中式批评家与分散式演员、确定性策略梯度(DPG)算法等。 12. 讨论了多智能体强化学习中的价值分解方法,如线性分解、非线性分解等。 13. 介绍了通信在多智能体强化学习中的应用,包括固定拓扑、自适应拓扑等。 14. 讨论了以人为中心的多智能体学习,包括基于人类偏好的安全强化学习、零样本人机协调等。 15. 总结了多智能体强化学习在混合动机马尔可夫博弈中的应用,如社会困境、POMG、Schelling图、解决方案方法等。
多智能体学习中的合作机制是什么? 如何解决多智能体系统中的部分可观测马尔可夫博弈问题? 多智能体系统中的信用分配和激励机制有哪些?
客服
商务合作
小程序
服务号
折叠