1.迁移学习
迁移学习(Transfer
Learning,TL)是机器学习的一个重要分支,侧重于跨领域进行知识迁移,具体是指从一个已知领域中进行相关知识的学习,然后将学习到的有用知识转移到一个相关但不同的新领域中去,从而有效地实现知识的传递。
迁移学习有两个基本的概念,分别是域和任务。域D由特征空间χ和边缘概率分布P(X)构成,可表示为D={χ,P(X)},其中X={x1,…,xn}∈χ,特征空间χ是所有特征向量的特征空间。源域Ds是包含丰富知识和大量标记样本数据的域,目标域Dt是需要赋予知识和数据标记的域。任务T由标签空间Y和目标预测函数f(·)构成,可表示为T={Y,f(·)},其中目标预测函数f(·)又称为条件概率分布P(y|x),可以通过标记样本数据和特征向量训练得到。迁移学习的定义是给定源域Ds、源任务Ts、目标域Dt和目标任务Tt,利用在源域解决源任务获得的知识,提高在目标域解决目标任务的能力。

2.迁移学习的分类
迁移学习根据采用的技术的不同可分为基于实例的迁移学习方法、基于特征映射的迁移学习方法和基于网络的迁移学习方法三个类别。
(1)基于实例的迁移学习
基于实例的迁移学习主要是指使用特定的权重调整策略,其在源领域中选择部分实例并分配合适的权重值,用于对目标领域训练数据集的扩充有效地提高了模型的泛化能力。由于其只进行了样本的迁移,没有对模型特征层面进行改进,因此一般要求源领域和目标领域的特征分布又有一定的相似性来防止负迁移的发生。Jiang等人提出了一种基于两阶段的特征选择框架,第一阶段通过训练一个通用的分类器用于提取目标领域和原领域的共同特征;在第二阶段将源领域的部分特征与目标领域特征进行加权合并到混合模型中,提高了分类器的性能。
(2)于特征映射的迁移学习方法
基于特征映射的迁移学习方法的核心思想是学习一种源领域与目标领域之间潜在的共享特征空间,其主要目的是对源领域的特征向量与目标领域的特征向量进行特征变化将其映射到同一个特征空间中。为了提高模型的精度,在特征映射的过程中应大大地减少源领域和目标领域特征之间的差异性的同时保证特征的可分性,将源领域中差距较大的特征赋予较小的权重。特征映射将源领域中有标记的低维特征转换到目标领域进行训练,与基于实例的迁移学习方法相比,其通过对特征进行映射得到全新的特征更适用于目标领域的分类,相当于增加了目标领域的特征数量有利于提高分类模型的泛化性。
(3)基于网络的迁移学习方法
基于网络的迁移学习是目前图像领域使用最广泛的方法,它是指复用在源领域中预先训练好的部分网络,其中包括了原有的网络结构和网络参数,将其作为目标领域中使用的深度神经网络的一部分。根据目标领域的数据量大小和其与源领域数据特征的相似性又可分为两个具体的类别。
1)把迁移过来的前n层网络的参数进行冻结,即在训练时不改变这n层的值;
2)不冻结这前n层,而是在每次迭代中不断调整它们的值,这种方法被称为fme-time(微调)。其中第一种方法适用于目标领域的数据量较小,且和源领域的数据特征类似,这时采用前n层当做通用特征提取器;当与源领域数据分布相差较大时则采用第二种方法。
以上梳理了迁移学习的定义、分类,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告的行业知识栏目。
推荐阅读:
机器学习系列:机器学习发展历程与量化投资的展望-220805(31页).pdf
Martech:机器学习在市场营销中的应用(英文版)(13页).pdf
FIGI:大数据、机器学习、消费者保护和隐私报告 (英文版)(62页).pdf