第一:背景
问题:广告和销量之间的关系?
数据集:特征包含三块:电视广告xt,网络广告xm,楼宇广告xf,因变量销量记作y。
数据集样本数为m。
第二:拟合线性回归模型
y’ = β0 + β1 * xt + β2 * xm + β3 * xf
写成矩阵形式:Xβ=y‘
解释:X就是形状m*4的矩阵【因为加入了一个β0这截距项,所以第一是m个1】,
β是一个包含四个元素的向量【β0,β1,β2,β3】
y'是一个包含m个元素的向量 【y1,y2,,,,,y3】
第三:几何分析
1、X是构成的列空间COL(X)属于R m 子空间。且COL(X)的秩为4。
秩为4,说明这个列空间满秩,也就是说COL(X),每一列可以看成一个基。
2、Xβ=0 #0表示每个元素的零向量。
- Xβ=0 的解【向量】构成的空间称为零空间,记作Null(X),属于R n的子空间【因为列向量为n,零空间最大维度n】。
- 所谓的解【Xβ=0 的解】,也就是说列空间存在列线性组合【线性组合形成的空间】使得,结果为m维零向量。
- 既然列空间满秩,那么Xβ=0解只有一个,m维零向量。此时零空间维度为0.
3、零空间的维度=n - r【其中n为列空间的列数,r为列空间的秩】
第四:最小二乘
1、我们知道Xβ=y‘,拟合的y’是m维向量。
观测值y同样是m维向量。
2、观测值y和拟合值y‘这两个向量,因为必然存在的误差致使Xβ=y【观测值】无解【y观测值不在列空间】。
那么我们拟合的y’ ,只能尽可能接近y【观测值】。
3、我们假设y和y‘不再一个平面,我们知道y’,是由COL(x)线性组合表示的,假设楼上的图中的超平面是列空间col(x),那么y‘,必定落在这个平面。【多维,想象超平面】
4、那么Xβ=y‘和y观测值,怎么才能最接近?换个角度,就是距离最短?
在这个空间我们用欧氏距离度量,我们知道欧氏距离的涉及到平方和的根号,所以‘最小二乘法’,中的‘二乘’就是这个概念。
那么最小二乘法,最小又该怎么理解?联想到距离的概念
向量e=y - y’ =y - Xβ
|e|自然就是距离【其实这个对应到RSS也就是残差平方和】,距离最小,必然就是正交投影。
e向量自然属于R m维的子空间,称为也属于左零空间【A转置的零空间】,左零空间垂直于列空间COL(X)。
第五:表达式
1、因为正交投影,向量e和列空间垂直。
Xt e=0
=Xt (y - Xβ) =0 【Xt 表示转置,a.b=aTb,点乘的表示方法】
Xt Xβ= Xty 【 称为Xβ=y的法方程】
2、Xt X其实是样本的协方差矩阵,协方差矩阵自然是对称的,要求出β,只好求Xt X的逆矩阵。
矩阵存在逆矩阵的条件,是该矩阵行列式=!0,
我们知道行列式表示的是矩阵的‘体积’,这就要求矩阵必须满秩,也就是要求矩阵不能有共线线性。
备注:如果共线--->行列式=0 ---->左乘该矩阵的逆【假设存在】 ---->相当于降维处理 --->
丢失了维度信息,自然不能复原,也就不可逆。
3、β=(Xt Xβ)-1 Xt y
事实上β,又被成为投影矩阵
即:
第六:总结
1、Xβ=y【观测值】,一般情况求不出来,因为y【观测值】,不再列空间中。
2、我们退而求其次,求Xβ=y‘,在列空间求最接近y【观测值】的y’的解,什么时候最近就接近?自然是e垂直于列空间。