17决策智能.pdf

编号:111445 PDF 54页 3.83MB 下载积分:VIP专享
下载报告请您先登录!

17决策智能.pdf

1、117决策智能2 清华大学张崇洁:高效协作的多智能体强化学习前沿研究进展整理:智源社区窦勇强在第二届北京智源大会“决策智能”专题论坛上,来自清华大学交叉信息研究院的张崇洁助理教授以“Efficient Collaborative Multi-Agent Reinforcement Learning”为题进行了演讲报告。张崇洁,于 2011 年在美国麻省大学阿默斯特分校获计算机科学博士学位,而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统、以及机器人学,担任清华大学交叉信息科学院助理教授,博士生导师,机器智能研究组主任。过去几年人工智能得到了很大的发展,

2、机器学习特别是深度学习方面在实际问题上的应用使人工智能受到了极大的关注。然而随着人工智能应用的不断广泛化和复杂化,使得研究者对人工智能提出更高的需求。研究趋势也从简单的模式识别到更加复杂的智能决策与控制,从单研究智能体的问题,过渡到解决多智能体的问题。在本次演讲中,张崇洁系统讲述了高效协作的多智能体强化学习研究的前沿进展。他抽丝剥茧般回顾了当前多智能体学习存在的挑战,通过引入通信和角色的方式逐步解决挑战达到最佳性能水平的研究历程。此外,张崇洁通过理论分析工作展望了对未来多智能体强化学习研究的趋势性看法,见解独到,相信会给大家带来很多启迪。演讲正文:一、多智能体强化学习简介1研究者通常把具有感知

3、和决策的能力的个体称为智能体(agent)。智能体基于它的感知,可以做出相应的决策以及行动来改变周围的环境,多个智能体可以通过协作式的行为实现一个整体的目标。例如,在机器人集群控制中,每一个机器人就可以看作一个智能体;在一个风力发电场,每一个风机就可以看作一个智能体。图 1:人工智能愈加复杂的应用场景3多智能体学习的问题可以分为三类:协作式多智能体,对抗式多智能体,以及混合式多智能体。其中,协作多智能体是一群智能体通过协同合作,来共同来优化整体目标的行为。在大多数协作式多智能体问题中,环境往往是部分可观察的(partially observable):每个智能体只能观察环境的部分信息,而且环境

4、的变化会存在一些随机性。这样一类复杂的多智能体协作决策问题,可以用一个较为通用的模型来刻画部分可观察的 Markov 决策过程(Dec-POMDP)。图 2:协作式多智能体模型 Dec-POMDPDec-POMDP 决策过程是非常通用的,它可以刻画大部分在不确定环境中多智能体决策的问题。从一种简单的角度来看,可将它视为把单个智能体的 Markov 决策过程过渡到多智能体的环境中。模型的运作方式如图 2 所示,在这个环境有两个机器人,在每一时刻,每个机器人都会根据它当前的感知输入选择某一个动作,执行这个动作之后将会改变环境中某一部分的状态。在这之后机器人通过进一步观察环境,得到新的观测。尽管每个

5、机器人可能会有不同的观测信息,但它们会得到同一个反馈信号。因为这里整体的假设是协作式多智能体的范围,所以这个反馈称为联合的报酬(joint reward)。在这类协作式多智能体问题中,研究者希望找到一组决策策略,使得智能体根据这个决策策略来执行它们的行动的时候,可以收获最大化的期望累计报酬。图 3:Dec-POMDP 形式化定义4这里寻找的决策策略,是指在前文定义的分布式-部分可观察的马尔可夫决策过程(Dec-POMDP)中,寻求一个映射关系,对每一个智能体把它的局部观察的历史映射到一个动作(action)上。而在 Dec-POMDP 的定义下,全局的环境状态是不可直接观测的。智能体往往需要记

6、住一些历史的信息来辅助今后更好的决策。决策策略又称“联合策略”,所谓的联合策略是智能体策略的集合。为了更好的描述和解决多智能体决策的问题,研究者定义了一个值函数(Q value function)来量化任务中的执行目标,这个值函数是折扣的未来累计期望收益和(Discounted future cumulative reward)。对给定一个任务如果能够学习出相应的值函数的话,那么智能体的最优联合策略也就相应得到。最优策略,可以直接从值函数中推导出来,即相对于行为变量 a(action)取参数最大化(argmax)的结果。因此,求解协作式多智能体的 Dec-POMDP 问题,有两种途径:直接学习

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(17决策智能.pdf)为本站 (会议专家) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠