半监督学习----西瓜书机器学习笔记及理解(五)

时间:2024-10-24 07:07:02

生成式方法:结合了生成模型和半监督学习的方法。

需要充分可靠的领域知识


生成模型用于建模数据的分布,同时利用少量的标记数据和大量的未标记数据进行训练。这种方法特别适用于标记数据稀缺但未标记数据丰富的情况。

论文《Semi-Supervised Learning with Deep Generative Models》中提出了一种新的框架,该框架使用深度生成模型变分推断来处理半监督学习问题。生成式半监督学习通过结合生成模型变分推断,提供了一种有效的方法来利用未标记数据来提高分类器的性能。

生成式方法假设所有的数据都是由同一个潜在的模型生成的,将有标记和未标记数据(看作模型模型确实参数)联系起来,可用EM看作极大似然估计求解。通常会使用深度生成模型,如变分自编码器(VAE)或生成对抗网络(GAN),来建模数据的复杂分布

半监督SVM:是一种结合了支持向量机(SVM)和半监督学习的方法

目标函数非凸

找到两类能将有标记样本分开,且穿过低密度区域的最佳划分超平面。在有标记数据的基础上,通过未标记数据的分布信息来辅助确定决策边界。

S3VM的特点包括:

  1. 基于聚类假设:S3VM假设数据集中的正负样本可以很好地分开,决策边界应该穿过样本特征空间的低密度区域,且不会穿过密集的未标记数据集。
  2. 利用未标记数据:S3VM通过探索未标记数据来规范和调整决策边界,使得决策边界不仅能够正确分类有标记样本,而且能够将未标记数据尽可能地分开。
  3. 优化问题:S3VM需要解决的优化问题不仅包括了有标记样本的t分类,还包括了对未标记样本的约束,这通常通过引入额外的变量或约束来实现。

S3VM与其他支持向量机的区别主要在于:

  • 与传统SVM的区别:传统SVM需要所有数据都是标记的,而S3VM可以利用未标记数据来提高分类性能。
  • 与TSVM(Transductive Support Vector Machine)的区别:TSVM和S3VM在概念上是可以互换的,它们都试图通过未标记样本的信息来找到最佳的决策边界。TSVM主要关注于二分类问题,并且尝试对未标记样本进行可能的标记。
  • 与Laplacian SVM的区别:Laplacian SVM通过图的拉普拉斯矩阵来探索数据的流形结构,而S3VM则更多地依赖于未标记数据的分布信息来辅助决策边界的确定。

图半监督学习GSSL:用图结构数据进行半监督学习的方法

最早方法直接基于聚类假设,将目标看做找出图的最小割

数据样本被表示为图中的节点,节点之间的表示样本之间的相似性或关联性。GSSL的目标是利用少量标记数据和大量未标记数据,通过图结构的信息传播来推断未标记样本的标签。

GSSL的主要步骤包括:

  1. 图构建(Graph Construction):这是GSSL的第一步,目的是发现一个图G = (V, E, W),其中V是节点集合,E是边集合,W是与边相关联的权重。每个节点代表一个输入样本,节点之间的边的权重反映了它们之间的相似性。在某些领域,如引文网络,数据已经具有隐含的图结构。对于大多数其他机器学习任务,需要构建一个图来适应GSSL方法。图构建技术涉及估计E和W,通常基于以下假设:

    • 图是无向的,权重矩阵W是对称的。
    • 如果节点i和j之间没有边,则Wij = 0。
    • 没有自环,即Wii = 0。
  2. 标签推断(Label Inference):在构建了图之后,下一步是进行标签推断,使得标签信息可以从标记样本传播到未标记样本。这通常通过图正则化方法或图嵌入方法来实现。

GSSL的关键优势包括:

  • 普遍性:许多常见数据集如互联网、引文网络和社交网络都可以用图来表示。
  • 凸性:由于通常涉及无向图,其对称特性使得学习问题更容易被表述为凸优化问题。
  • 可扩展性:许多GSSL方法被精心设计,使得时间复杂度与样本总数成线性关系,易于并行化处理大规模数据集。

基于分歧方法:

利用多个学习器(模型)来处理未标记数据的方法,其中这些学习器之间的“分歧”对于提升学习成效非常关键。这种方法的核心思想是,通过集成多个不同的学习器,它们之间的预测分歧可以帮助识别未标记数据中的潜在错误标签,从而提高半监督学习的性能。

基本原理

基于分歧的半监督学习方法通常包括以下几个步骤:

  1. 训练多个学习器:首先,使用有标记数据训练多个不同的学习器。这些学习器可以是不同算法的模型,或者是同一算法但不同初始化的模型
  2. 利用未标记数据:然后,这些学习器被用来预测未标记数据的标签。由于不同学习器可能会给出不同的预测结果,这些分歧可以被用来识别哪些未标记样本的预测是可靠的。
  3. 分歧驱动的学习:通过分析不同学习器之间的分歧,可以选择出置信度高的未标记样本,并将其加入到训练集中。这个过程可以迭代进行,不断更新学习器。

协同训练法要求数据具有两个充分冗余且满足条件对立性的视图,每个视图都包含足够产生最优学习器的信息。后续研究揭示出多学习器间的“分歧”对此类学习的成效至关重要,由此而被命名为基于分歧的半监督学习。

关键优势

  • 简单有效:基于分歧的方法通常简单且有效,不需要复杂的模型假设。
  • 理论基础坚实:这类方法有着较为坚实的理论基础,如偏差-方差权衡问题。
  • 适用范围广泛:由于不依赖于特定的模型或损失函数,因此适用范围较广。

最新的研究进展包括利用深度学习模型来增强基于分歧的半监督学习的性能,以及开发新的算法来更有效地利用未标记数据。例如,Progressive Multimodal Pivot Learning (PMPL) 方法通过引入可学习的枢轴记忆来探索隐藏在不协调模态下的固有语义意义,以提高多模态识别模型在实际场景中的鲁棒性