《22强化学习专题论坛.pdf》由会员分享,可在线阅读,更多相关《22强化学习专题论坛.pdf(67页珍藏版)》请在三个皮匠报告上搜索。
1、 1 22强化学习 2 美国密西根大学教授 Satinder Singh:强化学习中的“发现”整理人:智源社区 吴继芳第二届北京智源大会“强化学习”专题论坛上,Satinder Singh 教授做了题为强化学习中的发现(Discovery in Reinforcement Learning)的主题演讲。Satinder Singh,美国密西根大学教授,Deep Mind 首席科学家,AAAI Fellow。在本次演讲中,Satinder Singh 教授系统地介绍了他与其学生、同事近期关于强化学习的两个研究工作。报告主要讨论如何尝试通过 Meta-Gradient 方法来学习发现以往强化学习智
2、能体中需要手动设置的参数:内在奖励和辅助任务问题。针对于如何通过数据驱动的方式学习到内在奖励函数,他们提出了一个学习跨多生命周期(lifetime)内部奖励函数的 Meta-Gradient 框架,同时设计相关实验证明学习到的内在奖励函数能够捕获有用的规律,这些规律有助于强化学习过程中的 exploration 和 exploitation,并且可以迁移到到不同的学习智能体和不同的环境中。针对于如何在数据中发现问题作为辅助任务,他们扩展通用辅助任务架构,参数化表示General Value Functions,并通过 Meta-Gradient 方法学习更新参数发现问题。实验证明这个方法可以快
3、速发现问题来提高强化学习效果。下面是智源编辑为大家整理的讲座内容。一、“发现”的含义什么是强化学习中的“发现”?简单地思考,强化学习智能体中的参数可以分成两部分:一部分参数是从数据中学习发现得到,另一部分是由研究人员根据经验手动设置。Satinder Singh 教授的报告主要讨论他和他的团队如何尝试通过 Meta-Gradient 方法来学习发现参数。在强化学习中,策略(policy)函数和价值(value)函数的参数值通常从数据中学习得到。对于那些通常手动设置的参数,如图 1 所示,表格中是最新论文中的一些例子以及它们的出处。这些例子都是采用 Meta-Gradient 方法发现参数。有些
4、通过元学习(Meta-Laring)发现一个好的策略参数初始值。有些是用 Meta-Gradient 方法发现学习率(learing rate)和折扣因子(discount factor)。有些是用 Meta-Gradient 方法发现内在奖励(intrinsic rewards)和辅助任务(auxiliary tasks)等。在本次报告中,Satinder Singh 教授主要分享他和他的团队近期发表在 ICML 2020 和 NeurIPS 2019 中的两篇论文的相关研究工作(图 1 中标红的两篇)。虽然有许多不同的发现方法,比如:基于人口的方法(population based met
5、hod)、进化方法(revolution method),但是 Satinder Singh 教授他们只是采用启发式搜索方法发现超参数值。这次报告的重点是采用 Meta-Gradient 方法发现参数。图 1:手动参数的最新研究方法 3 二、内在奖励第一项工作由 Satinder Singh 教授和他的博生生共同完成的。文章的题目是:What can Learned Intrinsic Rewards Capture?1。2.1研究动机在强化学习中,智能体有很多结构存储知识。这些结构分为:常见结构(common structure)和非常见结构(uncommon structure)。其中,常
6、见结构有:策略(policies)、价值函数(value functions)、环境模型(models)和状态表示(state representations)等。在本次报告中,主要关注非常见结构:奖励函数(reward function)。之所以是非常见结构是因为在强化学习中这些奖励通常都是根据环境决定,并且是不可改变的。在论文中,将强化学习问题中的奖励函数分为外在奖励(extrinsic rewards)和内在奖励(intrinsic rewards)。外在奖励用来衡量智能体的性能,通常是不能改变的。内在奖励是智能体内部的。在内在奖励中,有很多方法用来存储知识,但是这些方法都是手动设计的,