主成分分析几何理解与推导

时间:2024-04-13 17:35:37

多变量可能存在信息的重叠,人们希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,即“降维”的思想。
一、几何理解
我们从几何上出发进行推导。
PCA从几何上看,就是将高维空间的数据正交投影到低维子空间,同时保留尽可能多的信息。
首先来看二维的情况,我们有以下已经中心化的数据(中心化不改变数据的相对位置,且便于后续处理计算)。
主成分分析几何理解与推导
我们尝试为其拟合一条线,首先绘制一条穿过原点的随机线:
主成分分析几何理解与推导
然后旋转线,使它尽可能的拟合数据,最终得到拟合最好的线:
主成分分析几何理解与推导
PCA如何判别这种拟合度的高低?
PCA将数据投影到该线上,然后测量数据到线的距离,尝试找到距离最小的拟合线。
同时也可以发现,数据到线的距离最小,也就是投影点到原点的距离最大。我们可以使用勾股定理来理解这两种方法的等价:
主成分分析几何理解与推导主成分分析几何理解与推导
如图所示,数据到原点的距离不变,即a不变,由a2=b2+c2有b与c此消彼长。因此,数据点到拟合线的投影长度越小,投影点到原点的距离最大。
由以上可以推广得到,PCA要使得降维后的数据与原数据拟合最好,即保留最多的信息,需要具有这样的性质:
(1)最近重构性:样本点到这个超平面的距离足够近
(2)最大可分性:样本点在这个超平面的投影尽可能分开
相应的PCA的推导有两个方向:(1)最小化降维造成的损失(2)最大方差。这两者是等价的,从上面的二维情况我们可以理解到,从后面的推导也可以看出。
二、最大化方差
最大化方差即使投影后的方差最大
主成分分析几何理解与推导
假定数据为
主成分分析几何理解与推导
且均值为0(即将数据已进行中心化处理)
主成分分析几何理解与推导
1.内积的定义
主成分分析几何理解与推导
2.正投影向量
主成分分析几何理解与推导
即正投影长度乘单位向量为投影向量。
若v为单位向量,即长度为1,则有
主成分分析几何理解与推导
若将v向量所在方向当作新的坐标轴,xj投影后的坐标就是内积:
主成分分析几何理解与推导
主成分分析几何理解与推导
3.推导
由上面的推导有,数据在经过投影后坐标为:
主成分分析几何理解与推导
投影后的方差即为:
主成分分析几何理解与推导
可以看到,S为样本协方差。因此得到第一主成分就是要找:
主成分分析几何理解与推导
使用拉格朗日乘子法有:
主成分分析几何理解与推导
因此优化目标即为:
主成分分析几何理解与推导
由上述推导可看出lambda即为S的特征值,v为对应的单位化特征向量。此时,
主成分分析几何理解与推导
因此,投影方向的方差,也就是特征值的大小,要使投影后的方差最大,投影方向应为最大特征值对应的特征向量的方向,这就是第一主成分的方向。因为S是实对称矩阵,不同特征值所对应的特征向量之间两两正交,因此,第二主成分方向即为S的第二大特征值所对应的特征向量的方向,以此类推。
三、最小化降维损失
将高维(d维)数据投影到低维(d prime)子空间,
假定投影变换后的标准正交基为:
主成分分析几何理解与推导
则投影到低维空间上的数据一定可以由这一组基表示:
主成分分析几何理解与推导主成分分析几何理解与推导
其中,
主成分分析几何理解与推导
为在低维坐标系中的坐标。使xi在低维坐标系下第j维的坐标。
主成分分析几何理解与推导
是xi在低维坐标系下第j维的坐标。
又因为wi为标准正交基向量,所以有

主成分分析几何理解与推导
因此要使降维后的损失最小:

主成分分析几何理解与推导

其中,
主成分分析几何理解与推导
主成分分析几何理解与推导
因此优化目标即为:

主成分分析几何理解与推导
或者:
主成分分析几何理解与推导
求解方法与结果最大方差法相同。