降维方法总结
对降维效果的评价:
比较降维前后学习器的性能
低维可以通过可视化技术来判断降维的效果
分类
一、低维嵌入
代表:MDS算法
基本思想:降维的一个基本思想是,降维前后 保证样本点的距离相等,即:原始空间中的距离在低维空间得以保持
MDS算法:
1)通过距离不变的原理,推导出由高维空间距离矩阵D计算低维空间样本的内积矩阵B,
2)对B做特征值分解
3)根据特征值分解的结果,计算出样本的低维空间坐标
——可以理解为,这种算法,对高维和低维空间的映射关系没有关注,只是关注了样本点的距离;新的样本点和高维样本点没有关系,只是计算的距离是相等的
——现实中,一般只要求降维后的距离尽可能的接近,不必严格相等
另外
这种算法要求先计算原始空间中所有样本间的距离,获得距离矩阵,如果样本很多,是不是就不适用了?
另外的方法:
一般来说,欲获得低维子空间,最简单的方法是对原始空间做线性变换(矩阵变换的本质就是空间变换)
Z=W*X W是变换矩阵
——线性降维方法
二、主成分分析(PCA)
如何用一个超平面对所有样本进行恰当的表达?两种思路:
最近重构性
——样本点到这个超平面的距离都足够近
转换矩阵是w,由标准正交基构成,构建一个距离公式,做优化,求w
最大可分性
——样本点到这个超平面上的投影尽可能分开
方法:——方差最大化
二者最后得到的优化方程是等价的
PCA算法流程:
输入:样本集D,低维空间维度d
1)对所有样本中心化
2)计算协方差矩阵
3)对协方差矩阵做特征值分解
4)取最大的d个特征值所对应的特征向量
输出:投影矩阵
理解:
最近重构性:可以理解为去除平面上小维度的抖动,保留大的变化维度的一种方式,比如一条直线,我们加上了微小的抖动,变成了曲线;再将其映射到最近的低维的超平面上,那肯定是会去除抖动,映射到了直线上,所以最近重构性也是一个理解思路
最大可分性:映射到尽可能分开的超平面,主要成分的含义
PCA就是按照最近重构性和最大可分性,求出的优化公式,按照拉格朗日乘子法进行推到,得到的解,然后进行矩阵变换
参考
简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法。
三、核化线性降维
处理非线性映射的问题——核主成分分析
使用核技巧,思路与PCA一样,只是引入了核函数
参考之前对核函数的学习,关键还是在选择合适的核函数
四、流形学习
1)等度量映射—Isomap
借鉴拓扑流形的概念
数据在高维空间的分布虽然极为复杂,但是在局部上,仍然具有欧式空间的性质
——理解参考书中的例子,在一个三维空间计算距离虽然和二维空间相差很大,但是在三维空间中,计算距离很近的两点的距离,就和在二维空间中很相似
等度量映射——Isomap思想:
——高维空间中的距离是不可达的——所以在高维空间中计算的距离是不恰当的
高维空间的距离可以使用近邻连接的方式来计算
距离则转换为计算近邻连接图中两点之间的最短路径的问题(参考Dijkstra算法和Floyd算法)
然后求出距离后,就可以用这个新的距离使用MDS算法来降维
Isomap算法过程:
输入:样本D,近邻参数K,低维空间维度d
过程:
1)确定x的k近邻,x与k个近邻的距离设置为欧氏距离,其他点的距离设置为无穷大
2)用最短路径算法计算任意两点样本之前的距离
3)将距离作为MDS算法的输入
4)输出MDS算法的结果
问题:
对于新的样本,无法再通过训练集的近邻法计算邻域距离,如何将其映射到低维空间?
方法:训练一个回归学习器对新样本的低维空间坐标进行预测——权宜之计
——这应该是这个方法的主要缺点,导致新样本的巨大差距
近邻的计算有两种方式
k近邻,指定距离最近的k个点作为近邻——问题:出现短路,即距离很远的点也是近邻
e邻域近邻,指定距离在e范围内的点做近邻——问题:出现断路,很多点会没有近邻
2)局部线性嵌入—LLE
思想:保持邻域内,样本之间的线性关系(等度量映射保持的是局部的距离关系)
(关系只限定在邻域内)
计算思路:
1)确定x的邻域
2)确定x用其邻域的下标表示W(使w的和为1,且每个分量上最小化)
3)根据W,计算地位空间的坐标Z(通过中间矩阵M,M前d个特征向量组成的矩阵及为Z)
五、度量学习
思想:
降维的目的是在一个低维的空间,寻找到一个合适的距离度量
寻找合适的空间维度,就是在寻找合适的度量
——直接寻找度量,不寻找空间——度量学习
马氏距离
构造一个加权的距离函数,不同的维度上的距离权重不同
合理设定一个目标函数,通过优化得到这些权重,即得到了目标度量,可以取前d维权重高的维度作为降维的维度
六、线性判别分析——LDA
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
参考:
MDS较于PCA和聚类的特点
PCA主要是找到最能体现数据特点的特征,而MDS更看重的是原始数据之间的相对关系,通过可视化的方式将他们之间的相对关系尽可能准确的展现出来。
MDS和聚类都可以检验样品之间的近似性或距离,但聚类分析中样品通常是按质分组的,MDS并不是把分组作为最终结果,而是以样品集的空间构图作为最终结果。