1 线性判别分析(LDA)
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。一句话来概括LDA的核心思想,【投影后类内方差最小,类间方差最大】。我们将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大,如下图所示
2.LDA原理及公式推导
目标函数已经得到,接下来是优化目标函数找到有一组最优鉴别矢量构成的投影矩阵(n为每个样本的特征个数),最佳投影矩阵的列向量恰为 的最大特征值所对应的特征向量(即矩阵 的特征向量),由此可求得
3.具体例子LDA算法在空间上的意义
4.LDA小结
LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在进行图像识别相关的数据分析时,LDA是一个有力的工具。下面总结下LDA算法的优缺点。
优点
- 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
- LDA在样本分类依赖的是均值而不是方差时,比PCA之类的算法较优
缺点
- LDA不适合对非高斯分布的样本降维
- LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA
- LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好
- LDA可能过度拟合数据
LDA代码实现:https://github.com/ruthy-wei/MachineLearning/tree/master/LDA
文章参考:
- https://blog.csdn.net/ruthywei/article/details/83045288
- https://blog.csdn.net/warmyellow/article/details/5454943