百面机器学习—与LDA要点总结

时间:2024-10-26 07:12:04

文章目录

      • 一、分析PCA与LDA的各自特点
        • 1.从求解方法来看
        • 2. 从目标来看
        • 3. 从结果来看
        • 4. 从应用角度来看
      • 二、分析PCA降维的一些优缺点


插眼:

  • 百面机器学习—1.特征工程
  • 百面机器学习—2. 特征工程与模型评估要点总结
  • 百面机器学习—3.逻辑回归与决策树要点总结
  • 百面机器学习—模型基础知识
  • 百面机器学习—要点总结
  • 百面机器学习—与LDA要点总结
  • 百面机器学习—均值算法、EM算法与高斯混合模型要点总结
  • 百面机器学习—8.概率图模型之HMM模型
  • 百面机器学习—9.前馈神经网络面试问题总结
  • 百面机器学习—10.循环神经网络面试问题总结
  • 百面机器学习—11.集成学习(GBDT、XGBoost)面试问题总结
  • 百面机器学习—12.优化算法

一、分析PCA与LDA的各自特点

1.从求解方法来看

PCA求解方法:
在这里插入图片描述
LDA求解方法:
在这里插入图片描述
从PCA和LDA两种降维方法的求解过程来看,它们确实有着很大的相似性,但对应的原理却有所区别。

2. 从目标来看

  PCA选择的是投影后数据方差最大的方向。由于它是无监督的,因此PCA假设方差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度,达到降维。而LDA选择的是投影后类内方差小、类间方差大的方向。其用到了类别标签信息,为了找到数据中具有判别性的维度,使得原始数据在这些方向上投影后,不同类别尽可能区分开。

3. 从结果来看

  利用PCA进行降维时,一般情况下保留的是最佳描述特征(主成分)而非分类特征。利用LDA进行降维时,一般能够保留更多的分类特征,使特征具有一定的区分性。

4. 从应用角度来看

  对无监督任务使用PCA进行降维,对有监督的则应用LDA进行降维。降维可以寻找数据内部的特性,从而提高特征表达能力,降低训练复杂度。在sklearn中分别通过下面两个来调用,

from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
  • 1
  • 2

二、分析PCA降维的一些优缺点

  作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪,因此在实际场景应用很广泛。为了克服PCA 的一些缺点,出现了很多PCA的变种,比如为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA算法的主要优点有:

  1. 仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
  2. 各主成分之间正交,可消除原始数据成分间的相互影响的因素。
  3. 计算方法简单,主要运算是特征值分解,易于实现。

PCA算法的主要缺点有:

  1. 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
  2. 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!
在这里插入图片描述