PCA (Principal Component Analysis) 公式推导
p≥k,∀Xp∈D,Yk=f(X),
即
f
将
p
维向量
X
降维到
k
维向量
Y
。
X^=g(Y)=DY,Dp×k=(d1,⋯,dk),
其中
D
是样本集合。
目标函数
argminf,g∑X∈D∥X−g(f(X))∥22
s.t. ∥dj∥2=1
且
di,dj
互相正交,
1≤i,j≤k
。
公式推导
-
∥dj∥2=1
且
di,dj
互相正交,
1≤i,j≤k
⇒D⊺D=Ik×k
∀X∈D,φ(D,Y;X)=∥X−g(Y)∥22=∥X−DY∥22
=(X−DY)⊺(X−DY)
⇒dφ(D,Y;X)=2(X−DY)⊺d(X−DY)
=−2(X−DY)⊺(dD⋅Y+D⋅dY)
=−2(X⊺−Y⊺D⊺)(dD⋅Y+D⋅dY)
=−2(X⊺−Y⊺D⊺)dD⋅Y−2(X⊺−Y⊺D⊺)D⋅dY
=−2(X⊺−Y⊺D⊺)dD⋅Y−2(X⊺D−Y⊺D⊺D)dY
=−2(X⊺−Y⊺D⊺)dD⋅Y−2(X⊺D−Y⊺)dY
⇒∂φ∂Y=−2(X⊺D−Y⊺)
⇒f(X)=Y∗=argminYφ=D⊺X
-
φ(D,Y∗;X)=∥X−g(Y∗)∥22=∥X−DY∗∥22
=∥X−DD⊺X∥22
=∥(Ip×p−DD⊺)X∥22
⇒∑X∈Dφ(D,Y∗;X)=∑X∈D∥(Ip×p−DD⊺)X∥22
=∑X∈D[(Ip×p−DD⊺)X]⊺(Ip×p−DD⊺)X
=∑X∈DX⊺(Ip×p−DD⊺)(Ip×p−DD⊺)X
=∑X∈DX⊺(Ip×p−2DD⊺+DD⊺DD⊺)X
=∑X∈DX⊺(Ip×p−DD⊺)X
令
X=(X1,⋯,X|D|)⊺,
其中
|D|
是样本集合
D
的大小。则
∑X∈Dφ(D,Y∗;X)=tr[X(Ip×p−DD⊺)X⊺]
=tr[X⊺X(Ip×p−DD⊺)]
=tr[X⊺X(Ip×p−DD⊺)]
=tr(X⊺X−X⊺XDD⊺)
=tr(X⊺X)−tr(X⊺XDD⊺)
=tr(X⊺X)−tr(D⊺X⊺XD)
因此
minf,g∑X∈D∥X−g(f(X))∥22=constant+maxD tr(D⊺X⊺XD) s.t. D⊺D=I(1)
由于
X⊺X
是是半正定实矩阵,因此存在
Λ=⎛⎝⎜⎜λ1,⋱λp⎞⎠⎟⎟,
存在正交矩阵
P,
使得
X⊺X=P⊺ΛP,
且
λj≥0,λi≥λj,i≤j,1≤i,j≤p,
于是
D⊺X⊺XD=D⊺P⊺ΛPD=(PD)⊺Λ(PD)
令
Q=(q1⋯qk)=PD,
则
Q⊺Q=D⊺P⊺PD=I
于是
tr(D⊺X⊺XD)=tr(Q⊺ΛQ)
=∑j=1k∑i=1pλiq2ij
=∑i=1pλi(∑j=1kq2ij)
≤∑i=1kλi
小于等于是因为:
1)
∑i=1p∑j=1kq2ij=k
2) 由于
Q
的列向量可扩展成一组标准正交基,因此
∑j=1kq2ij≤1
当
PD=Q=(Ik×k0)
时等号成立。
此时
D⊺X⊺XD=D⊺P⊺ΛPD=Q⊺ΛQ=⎛⎝⎜⎜λ1,⋱λk⎞⎠⎟⎟,
则
X⊺Xdj=λjdj,1≤j≤k,
因此
dj
为
X⊺X
的属于特征值
λj
的特征向量。
性质
设
Y=(Y1,⋯,Yk)=XD,
X=(X1,⋯,X|D|)⊺,
则
maxDVarY=maxDtr(Y⊺Y)=maxDtr(D⊺X⊺XD)
s.t.
D⊺D=I
这就是公式推导 1 中的式子 (1)
此时称
Yj
为
Y
的第
j
个主成分 (Principal Component) 。
称
k:
Number of Principal Components.
则
Yj
的方差为
λj,
且
Yi,Yj
正交,
1≤i≠j≤k
。
证明
Y⊺iYj=(Xdj)⊺Xdj=d⊺iX⊺Xdj=λjd⊺idj={λj,0,i=j,otherwise,1≤i,j≤k,
推论
Percentage of total variation retained =
VarYVarX=∑i=1kλi∑i=1pλi