《23机器学习前沿青年科学家专题论坛.pdf》由会员分享,可在线阅读,更多相关《23机器学习前沿青年科学家专题论坛.pdf(56页珍藏版)》请在三个皮匠报告上搜索。
1、123机器学习前沿青年科学家2 杜克大学鬲融:通往“Learning to learn”方法的理论理解整理:智源编辑许明英近年来,人工智能的蓬勃发展促进了人们对人工智能理论的深入探索,人工智能理论的研究呈现出了 Artificial Intelligence-Machine Learning-Deep Learning-Deep Reinforcement Learning-Deep Learning to Learn 的趋势。Learning to Learn(学会学习)已经成为继增强学习之后又一个重要的研究分支。在 Machine Learning 时代,复杂的分类问题推动了人们对 Dee
2、p Learning(深度学习)的探索,深度学习的出现基本解决了一对一映射问题,然而深度学习在解决 Sequential decision making 问题上遇到了瓶颈,由此深度增强学习应运而生,并在序列决策问题上初显成效。但是,新的问题接踵而至,深度增强学习依赖于巨量的训练,并且需要精确的 Reward,对于现实世界的很多任务,没有好的 Reward,也没办法无限量训练。这就需要其能够快速学习。而快速学习的关键是具备学会学习的能力,能够充分的利用以往的知识经验来指导新任务的学习,因此 Learning to Learn 成为学者们新一轮攻克方向。6 月 24 号,在第二届智源大会“机器学习
3、前沿青年科学家”专题论坛上,杜克大学计算机科学系鬲融教授作为演讲嘉宾,带来了主题为Towards a Theoretical Understanding of Learning-to-learn Methods的精彩演讲。鬲融在报告中,首先就深度学习中起核心作用的优化算法抛出第一个问题:如何训练及优化网络,仅仅使用SGD 或 Adam 足够吗?他简单阐述了训练神经网络的一些技巧,例如可能需要设计步长、改变一些动量;可能需要增加一些权重衰减,增加数据量;可能需要利用各种各样的技巧去优化网络。然而,调整这些参数优化网络并不是一件容易的事情。图 1:神经网络优化3接下来,鬲融提到或许在调参过程中会非
4、常沮丧,或许想摆脱这些繁杂的调参过程,自动找寻新的优化技巧。那么,这样做有没有可行性呢?答案是肯定的。这方面的研究工作目前已经有很多,其中利用 Learning to learn 来设计更好的优化算法,从而来提高优化器性能是其中一个方向。鬲融以论文Learning to learn by gradient descent by gradient descent为例进行了介绍,这篇论文的主要思想是用 Learning to learn 方法学习一个新的优化器,目标是优化分配任务的目标函数 f(w);具体则是,将优化算法抽象为具有参数的优化器,然后通过各个分配任务优化参数。图 2:具有参数的优化器
5、优化器可以是传统简单的优化器,也可以是神经网络优化器。训练优化器的步骤为:进行 t 步优化、定义元目标、在优化器参数做元梯度下降。事实上,这一个过程类似于循环神经网络/策略梯度。然而这一过程会面临着诸多挑战,例如梯度消失或梯度爆炸问题、可能陷入较差的局部最优解、在具体任务上的泛化能力、没有理论保证等。鬲融在报告中谈到自己为二次目标分析了简单的优化器(包括梯度下降 GD 和随机梯度下降 SGD),并通过实践得出了一些结论如下:1.对于二次目标的梯度爆炸/梯度消失问题(1)传统的元目标对于所有步长都存在元梯度爆炸/消失问题;(2)可以设计一个更好的元目标,其元梯度保持多项式有界;(3)即使对于新目
6、标,使用反向传播算法计算元梯度也会导致数值问题。2.最小二乘训练优化器的泛化能力当样本数量较少时,需要在单独的验证集上定义元目标。当样本数量很大时,只需在训练集上定义元目标即可。鬲融从步长和设计更好的目标两个方面入手探讨了应对梯度爆炸/梯度消失问题的策略。一、为简单的二次目标优化步长目标:()12Tminf ww Hw=4算法:使用固定步长的梯度下降法:()()1ttttwwf wIH whh+=传统的元目标在最后一步的损失为:()()TFf whh=定理:对于的几乎所有值,T 中的元梯度()F h要么呈指数增长,要么呈指数下降。鬲融通过实验展示了 TensorFlow 计算的实际元梯度与元梯