机器学习之线性判别分析(LDA)小结

时间:2024-03-23 15:27:16

1 线性判别分析(LDA)

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。一句话来概括LDA的核心思想,【投影后类内方差最小,类间方差最大】。我们将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大,如下图所示
机器学习之线性判别分析(LDA)小结

2.LDA原理及公式推导

机器学习之线性判别分析(LDA)小结机器学习之线性判别分析(LDA)小结
目标函数已经得到,接下来是优化目标函数找到有一组最优鉴别矢量构成的投影矩阵WoptW_{opt}(n为每个样本的特征个数)机器学习之线性判别分析(LDA)小结,最佳投影矩阵WoptW_{opt}的列向量恰为 Sbφ=λSwφS_b \varphi = \lambda S_{w}\varphi 的最大特征值所对应的特征向量(即矩阵 Sw1SbS_{w}^{-1}S_b 的特征向量),由此可求得WoptW_{opt}

3.具体例子LDA算法在空间上的意义

请参看4.1

4.LDA小结

LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在进行图像识别相关的数据分析时,LDA是一个有力的工具。下面总结下LDA算法的优缺点。

优点

  1. 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
  2. LDA在样本分类依赖的是均值而不是方差时,比PCA之类的算法较优

缺点

  1. LDA不适合对非高斯分布的样本降维
  2. LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA
  3. LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好
  4. LDA可能过度拟合数据

LDA代码实现:https://github.com/ruthy-wei/MachineLearning/tree/master/LDA

文章参考:

  1. https://blog.csdn.net/ruthywei/article/details/83045288
  2. https://blog.csdn.net/warmyellow/article/details/5454943