记目标方程为 f ( X ) = w ⊤ X {f(X) = w^\top X} f(X)=w⊤X,其中 w {w} w为 P {P} P维向量, X {X} X为大小为 N × P {N\times P} N×P的矩阵
x i {x_i} xi对应的真实值为 y i {y_i} yi
一、MLE
MLE(Maximum Likelihood Estimate),也叫极大似然估计,是频率学派中的一种参数估计方法。其主要思想为,通过最大化
X
{X}
X的对数似然函数,得到使当前
X
{X}
X取到真实值的概率最大的参数
w
{w}
w。其公式如下:
w
^
=
arg
max
l
n
P
(
X
∣
w
)
.
{\hat{w} = \arg\max lnP(X|w)}.
w^=argmaxlnP(X∣w).
二、MAP
MAP(Maximum A Posteriori Estimation),也叫极大后验估计,是贝叶斯学派中的一种参数估计方法。该方法基于贝叶斯公式:
P
(
w
∣
X
)
=
P
(
X
∣
w
)
⋅
P
(
w
)
P
(
X
)
,
{P(w|X) = \frac{P(X|w)\cdot P(w)}{P(X)}},
P(w∣X)=P(X)P(X∣w)⋅P(w),其中
P
(
w
)
{P(w)}
P(w)为先验概率,
P
(
w
∣
X
)
{P(w|X)}
P(w∣X)为后验概率,
P
(
X
∣
w
)
{P(X|w)}
P(X∣w)为似然。极大后验估计即为通过最大化
X
{X}
X的后验概率,得到最优的参数
w
{w}
w。其公式如下:
w
^
=
arg
max
P
(
w
∣
X
)
.
{\hat{w} = \arg\max P(w|X)}.
w^=argmaxP(w∣X).由贝叶斯公式可得,
P
(
w
∣
X
)
∝
P
(
X
∣
w
)
⋅
P
(
w
)
,
{P(w|X) \propto P(X|w)\cdot P(w)},
P(w∣X)∝P(X∣w)⋅P(w),所以上述公式又可以写成
w
^
=
arg
max
P
(
X
∣
w
)
⋅
P
(
w
)
.
{\hat{w} = \arg\max P(X|w)\cdot P(w)}.
w^=argmaxP(X∣w)⋅P(w). 由最大后验估计的公式可以看出,它并没有算出
P
(
w
∣
X
)
{P(w|X)}
P(w∣X),所以并没有得到
X
{X}
X的生成模型,这就是最大后验估计与贝叶斯估计的区别。
三、LSE
LSE(Least Square Estimation),也叫最小二乘估计。其公式如下:
L
(
w
)
=
1
2
∑
i
=
1
n
(
w
⊤
x
i
−
y
i
)
2
=
w
⊤
X
⊤
−
Y
⊤
,
{L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 = w^\top X^\top-Y^\top},
L(w)=21i=1∑n(w⊤xi−yi)2=w⊤X⊤−Y⊤,
w
^
=
arg
min
L
(
w
)
.
{\hat{w} = \arg\min L(w)}.
w^=argminL(w).这里的
1
2
{\frac{1}{2}}
21是为了微分时消去不必要的参数。
根据该公式,对矩阵微分可得,
w
^
{\hat{w}}
w^的解析解为:
w
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
.
{\hat{w} = (X^\top X)^{-1}X^\top Y}.
w^=(X⊤X)−1X⊤Y. 但其中的
X
⊤
X
{X^\top X}
X⊤X项并不一定可逆。例如当特征空间的维度大于样本数时,我们无法通过少量的样本来拟合出目标函数,这就会导致过拟合。解决方法通常为降维和正则化,接下来主要介绍正则化。
正则化指的是在损失函数
L
(
w
)
{L(w)}
L(w)中添加一个正则化项(也叫正则罚项或惩罚项)。常用的正则化项有
L
1
{L_1}
L1范数和
L
2
{L_2}
L2范数,分别对应
L
a
s
s
o
{Lasso}
Lasso回归和
R
i
d
g
e
{Ridge}
Ridge回归。这里主要介绍
L
2
{L_2}
L2正则。
L
2
{L_2}
L2范数的公式为
∣
∣
w
∣
∣
2
=
∑
i
=
1
n
w
i
2
=
w
⊤
w
,
{||w||_2 = \sqrt{\sum_{i=1}^{n}w_i^2} = \sqrt{w^\top w}},
∣∣w∣∣2=i=1∑nwi2=w⊤w,这里使用
∣
∣
w
∣
∣
2
2
{||w||_2^2}
∣∣w∣∣22作为正则化项,则添加
L
2
{L_2}
L2正则后的损失函数为
L
(
w
)
=
1
2
∑
i
=
1
n
(
w
⊤
x
i
−
y
i
)
2
+
λ
w
⊤
w
=
(
X
⊤
X
+
λ
I
)
−
1
X
⊤
Y
.
{L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 + \lambda w^\top w = (X^\top X + \lambda I)^{-1}X^\top Y}.
L(w)=21i=1∑n(w⊤xi−yi)2+λw⊤w=(X⊤X+λI)−1X⊤Y. 不难看出,
X
⊤
X
{X^\top X}
X⊤X为半正定矩阵,
λ
I
{\lambda I}
λI为单位矩阵,相加后为正定矩阵,一定可逆,所以我们就通过给损失函数添加
L
2
{L_2}
L2正则解决了过拟合的问题。
四、关系
将样本真实值视作预测值加一定程度的噪声
ε
{\varepsilon}
ε,即
y
i
=
f
(
x
i
)
+
ε
.
{y_i = f(x_i) + \varepsilon}.
yi=f(xi)+ε.
若假设
ε
∼
N
(
0
,
σ
1
2
)
{\varepsilon \sim N(0,\sigma_1^2)}
ε∼N(0,σ12),则MLE的公式可化为
w
^
=
arg
min
1
2
∑
i
=
1
n
(
y
i
−
w
⊤
x
i
)
2
,
{\hat{w} = \arg\min\frac{1}{2} \sum_{i=1}^{n} (y_i-w^\top x_i)^2},
w^=argmin21i=1∑n(yi−w⊤xi)2,与LSE的公式完全相同。由此可得,不添加正则化项时,LSE即为噪声服从高斯分布时的MLE。
若假设
w
∼
N
(
0
,
σ
2
2
)
{w \sim N(0,\sigma_2^2)}
w∼N(0,σ22),则MAP公式可化为
w
^
=
arg
min
∑
i
=
1
n
(
y
i
−
w
⊤
x
i
)
2
+
σ
1
2
σ
2
2
∣
∣
w
∣
∣
2
2
,
{\hat{w} = \arg\min\ \sum_{i=1}^{n} (y_i-w^\top x_i)^2 + \frac{\sigma_1^2}{\sigma_2^2}||w||_2^2},
w^=argmin i=1∑n(yi−w⊤xi)2+σ22σ12∣∣w∣∣22,与LSE的公式完全相同,其中
λ
=
σ
1
2
σ
2
2
{\lambda = \frac{\sigma_1^2}{\sigma_2^2}}
λ=σ22σ12。由此可得,添加正则化项时,LSE即为噪声和
w
{w}
w均服从高斯分布时的MAP。
参考:/video/av31989606