通过线性回归得到回归参数后,可以通过计算判定系数R2来评估回归函数的拟合优度。判定系数R2定义如下:
R2=SSRSST=1−SSESST
其中,
SSR=∑i=1n(ŷ i−y¯i)2,
SSE=∑i=1n(yi−ŷ i)2和
SST=∑i=1n(yi−y¯)2。
R2越接近1,回归函数的拟合优度越大。上式可改写成
SST=SSR+SSE,即:
∑i=1n(yi−y¯)2=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2
为了理解R2,我们有必要先回顾一下线性回归的通式:
⎧⎩⎨⎪⎪ŷ i=f(x)=θ0+∑j=1nθjxjiyi=ŷ i+ϵi
其中,
yi实际上由
ŷ i和
ϵi组成,
ŷ i随
xi变化而变化。令
x0i=1,
ŷ i=θ0+∑j=1nθjxji可被改写成
ŷ i=θTxi。将上式改写成向量和矩阵的形式:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎡⎣⎢⎢⎢⎢⎢11⋮1x11x12x1mx21x22x2m………xn1xn2xnm⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢θ0θ1⋮θn⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢ŷ 1ŷ 2⋮ŷ m⎤⎦⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢y1y2⋮ym⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢ŷ 1ŷ 2⋮ŷ m⎤⎦⎥⎥⎥⎥+⎡⎣⎢⎢⎢⎢ϵ1ϵ2⋮ϵm⎤⎦⎥⎥⎥⎥
当
θ≠0时,
Ŷ 是
X的一个线性组合,即
Ŷ 存在于由
X的列向量所展开的列空间中。对于一次幂的线形回归,
X的列空间即是一个超平面,
Ŷ 是存在于面内的一个向量(即
Y在面上的投影)。为了使得残差最小化,
ϵ是
Y垂直于面方向上的投影。在三维中的几何意义如下图(文中
θ即图中
β,图中
Xi表示列向量,图
取自):
因为ϵ垂直于X的列空间,所以ϵ垂直于X的所有列向量,即XTϵ=0。又因ϵ=Y−Xθ,得:
XT(Y−Xθ)=0XTY=XTXθθ=(XTX)−1XTYŶ =Xθ=X(XTX)−1XTY
根据
Ŷ =Xθ=X(XTX)−1XTY,我们得到了投影矩阵
P=X(XTX)−1XT。
Ŷ =PY,投影矩阵
P乘以
Y得到了
Y属于
X列空间的分量
Ŷ 。投影矩阵有两个性质需要了解:
-
P是对称矩阵;
PT=(X(XTX)−1XT)T=X((XTX)−1)TXT=X((XTX)T)−1XT=X(XTX)−1XT=P
-
P2=P。
P2=PTP=X(XTX)−1XTX(XTX)−1XT=X(XTX)−1XTX(XTX)−1XT=X(XTX)−1XT=P
现在,我们可以开始推导判定系数公示SST=SSR+SSE了。如下(1∈Rm):
SST=∑i=1n(yi−y¯)2=∑i=1n[(yi−ŷ i)+(ŷ i−y¯)]2=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+∑i=1n2(yi−ŷ i)(ŷ i−y¯)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+∑i=1n2(yi−ŷ i)(ŷ i−y¯)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵ(Ŷ −Y¯1)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵ(PY−Y¯1)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵTŶ −2Y¯ϵT1
因为
ϵ垂直于
X的列空间,且
Ŷ 属于
X的列空间,所以
ϵTŶ =0;又因为
1=x0i∈Rm(
1属于
X的列空间),所以
ϵT1=0。因此:
SST=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵTŶ −2Y¯ϵT1=SSR+SSE