阅读《迁移学习简明手册》总结(一)

时间:2024-03-14 06:57:48

一、迁移学习基本概念

1、迁移学习概念:迁移学习,是指利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。
2、为什么需要迁移学习及迁移学习的解决方法

  • 大数据与少标注之间的矛盾:在大数据时代每天都产生海量的图像、文本、语言等各类数据,但这些数据往往都是很初级的原始形态,很少有正确的人工标注。
    *迁移数据标注:*寻找一些与目标数据相近的有标注的数据,从而利用这些数据来构建模型,增加我们的目标数据的标注。

  • 大数据与弱计算之间的矛盾:大数据需要大设备、强计算能力的设备进行存储和计算,绝大多数普通用户不可能有这些强计算能力。
    模型迁移: 将在大数据上训练好的模型迁移到我们的任务上,再根据我们的任务进一步微调。

  • 普适化模型与个性化需求之间的矛盾: 机器学习的目标是构建一个尽可能通用的模型,尽量提高模型的泛化能力,但是人们的个性化需求五花八门。
    *自适应学习:*考虑到不同用户之间的相似性和差异性,我们对普适化模型进行灵活调整。

  • 特定应用的需求:现实生活中存在一些特定的应用,它们面临着一些显示存在的问题,比如推荐系统的冷启动问题,一个新的推荐系统,没有足够的用户数据,如何进行精准的推荐。
    相似领域知识迁移: 从数据和模型方法上进行迁移学习
    3、与已有概念的区别和联系

  • 传统机器学习
    阅读《迁移学习简明手册》总结(一)

  • 多任务学习
    多任务:多个任务协同学习

  • 终身学习:可认为是序列化的多任务学习,面对新的任务,不遗忘之前学习的任务而继续学习

  • 领域自适应:是迁移学习的研究内容之一,侧重于解决特征空间一致没类别空间一致,仅特征分布不一致的问题。

  • 增量学习:数据不断到来,模型不断更新

  • 自我学习:模型不断地从自身处进行更新,迁移学习强调知识在不同领域间进行迁移

  • 协方差漂移:数据的边缘概率分布发生改变
    4、负迁移
    (1)负迁移指的是,在源域上学习到的知识,对于目标域上的学习产生负面作用
    (2)负迁移产生的原因:

  • 数据问题:源域和目标域压根不相似

  • 方法问题:源域和目标域是相似的
    (3)克服负迁移的最新研究成果
    ==2015年杨强教授团队的 == 传递迁移学习 Transitive transfer learning
    2017年杨强教授团队的远领域迁移学习 Distant domain transfer learning

二、迁移学习研究领域

1、迁移学习常用分类方法
阅读《迁移学习简明手册》总结(一)
1.1 按照目标域标签分
目标域有无标签
监督迁移学习/半监督迁移学习/无监督迁移学习
1.2按学习方法分类

  • 基于样本的迁移学习
    直接对不同的样本赋予不同权重,比如说相似的样本,我就给它高权重

  • 基于特征的迁移学习
    假设源域和目标域的特征
    原来不在一个空间,或者说它们在原来那个空间上不相似,那我们就想办法把它们变换到一个空间里面

  • 基于关系的迁移学习
    挖掘和利用关系进行类比迁移

  • 基于模型的迁移学习
    构建参数共享的模型
    目前最热的就是基于特征还有模型的迁移,然后基于实例的迁移方法和他们结合起来使用。
    1.3按照特征分类

  • 同构迁移学习

  • 异构迁移学习
    特征语意和维度
    1.4按离线与在线形式分

  • 离线迁移学习

  • 在线迁移学习
    是否能够对新加入的数据进行学习,改进模型

三、迁移学习的应用

1、计算机视觉
2、文本分类
3、时间序列
4、医疗健康

四、基础知识

1、迁移学习的问题形式化
在迁移学习中的两个基本概念:领域(Domain),任务(Task)
定义如下:
阅读《迁移学习简明手册》总结(一)
阅读《迁移学习简明手册》总结(一)
阅读《迁移学习简明手册》总结(一)
阅读《迁移学习简明手册》总结(一)
2、总体思路
(1)迁移学习的总体思路可以概括为:开发算法来最大限度地利用有标注的领域的知识,来辅助目标领域的知识获取和学习
找到相似性 (不变量),是进行迁移学习的核心。
相似性是核心,度量准则是重要手段。
3、度量准则
度量就
是描述源域和目标域这两个领域的距离:
阅读《迁移学习简明手册》总结(一)
(1)常见的几种距离

  • 欧氏距离

  • 闵可夫斯基距离:两个向量(点)

  • 马氏距离
    (2)相似度

  • 余弦相似度:衡量两个向量的相关性

  • 互信息:定义在两个概率分布上

  • 皮尔逊相关系数:衡量两个随机变量的相关性

  • Jaccard相关系数:判断两个集合的相关性
    (3)KL散度与JS距离
    KL散度和JS距离是迁移学习中被广泛应用的度量手段

  • LS散度:相对熵,衡量两个概率分布的距离,这是一个非对称距离

  • JS距离:基于KL散度发展而来,是对称度量
    (4)最大均值差异MMD
    最大均值差异是迁移学习中使用频率最高的度量。 Maximum mean discrepancy,它度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。两个随机变量的 MMD 平方距离为:
    阅读《迁移学习简明手册》总结(一)
    阅读《迁移学习简明手册》总结(一)
    (5)Principal Angle
    将两个分布映射到高维空间(格拉斯曼流形)中,在流形中两堆数据就可以看成两个点。
    (6)A-distance
    是一个很简单却很有用的度量,此距离可以用于估计不同分布之间的差异性。A-distance被定义为建立一个线性分类器来区分两个数据领域的hinge损失。
    (7)Hilbert-Schmidt Independence Criterion
    希尔伯特-施密特独立性系数,用来检验两组数据的独立性。
    (8)Wasserstein Distance
    用来衡量两个概率分部之间距离的度量方法