《17决策智能.pdf》由会员分享,可在线阅读,更多相关《17决策智能.pdf(54页珍藏版)》请在三个皮匠报告上搜索。
1、117决策智能2 清华大学张崇洁:高效协作的多智能体强化学习前沿研究进展整理:智源社区窦勇强在第二届北京智源大会“决策智能”专题论坛上,来自清华大学交叉信息研究院的张崇洁助理教授以“Efficient Collaborative Multi-Agent Reinforcement Learning”为题进行了演讲报告。张崇洁,于 2011 年在美国麻省大学阿默斯特分校获计算机科学博士学位,而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统、以及机器人学,担任清华大学交叉信息科学院助理教授,博士生导师,机器智能研究组主任。过去几年人工智能得到了很大的发展,
2、机器学习特别是深度学习方面在实际问题上的应用使人工智能受到了极大的关注。然而随着人工智能应用的不断广泛化和复杂化,使得研究者对人工智能提出更高的需求。研究趋势也从简单的模式识别到更加复杂的智能决策与控制,从单研究智能体的问题,过渡到解决多智能体的问题。在本次演讲中,张崇洁系统讲述了高效协作的多智能体强化学习研究的前沿进展。他抽丝剥茧般回顾了当前多智能体学习存在的挑战,通过引入通信和角色的方式逐步解决挑战达到最佳性能水平的研究历程。此外,张崇洁通过理论分析工作展望了对未来多智能体强化学习研究的趋势性看法,见解独到,相信会给大家带来很多启迪。演讲正文:一、多智能体强化学习简介1研究者通常把具有感知
3、和决策的能力的个体称为智能体(agent)。智能体基于它的感知,可以做出相应的决策以及行动来改变周围的环境,多个智能体可以通过协作式的行为实现一个整体的目标。例如,在机器人集群控制中,每一个机器人就可以看作一个智能体;在一个风力发电场,每一个风机就可以看作一个智能体。图 1:人工智能愈加复杂的应用场景3多智能体学习的问题可以分为三类:协作式多智能体,对抗式多智能体,以及混合式多智能体。其中,协作多智能体是一群智能体通过协同合作,来共同来优化整体目标的行为。在大多数协作式多智能体问题中,环境往往是部分可观察的(partially observable):每个智能体只能观察环境的部分信息,而且环境
4、的变化会存在一些随机性。这样一类复杂的多智能体协作决策问题,可以用一个较为通用的模型来刻画部分可观察的 Markov 决策过程(Dec-POMDP)。图 2:协作式多智能体模型 Dec-POMDPDec-POMDP 决策过程是非常通用的,它可以刻画大部分在不确定环境中多智能体决策的问题。从一种简单的角度来看,可将它视为把单个智能体的 Markov 决策过程过渡到多智能体的环境中。模型的运作方式如图 2 所示,在这个环境有两个机器人,在每一时刻,每个机器人都会根据它当前的感知输入选择某一个动作,执行这个动作之后将会改变环境中某一部分的状态。在这之后机器人通过进一步观察环境,得到新的观测。尽管每个
5、机器人可能会有不同的观测信息,但它们会得到同一个反馈信号。因为这里整体的假设是协作式多智能体的范围,所以这个反馈称为联合的报酬(joint reward)。在这类协作式多智能体问题中,研究者希望找到一组决策策略,使得智能体根据这个决策策略来执行它们的行动的时候,可以收获最大化的期望累计报酬。图 3:Dec-POMDP 形式化定义4这里寻找的决策策略,是指在前文定义的分布式-部分可观察的马尔可夫决策过程(Dec-POMDP)中,寻求一个映射关系,对每一个智能体把它的局部观察的历史映射到一个动作(action)上。而在 Dec-POMDP 的定义下,全局的环境状态是不可直接观测的。智能体往往需要记
6、住一些历史的信息来辅助今后更好的决策。决策策略又称“联合策略”,所谓的联合策略是智能体策略的集合。为了更好的描述和解决多智能体决策的问题,研究者定义了一个值函数(Q value function)来量化任务中的执行目标,这个值函数是折扣的未来累计期望收益和(Discounted future cumulative reward)。对给定一个任务如果能够学习出相应的值函数的话,那么智能体的最优联合策略也就相应得到。最优策略,可以直接从值函数中推导出来,即相对于行为变量 a(action)取参数最大化(argmax)的结果。因此,求解协作式多智能体的 Dec-POMDP 问题,有两种途径:直接学习