本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 9-25,它表示对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导后的结果,并设定偏导数为 0 来找到最优解。我们来详细解释这个公式。
公式 9-25 的表达式为:
∂
L
∂
w
=
w
∗
−
∑
i
=
1
N
α
i
∗
y
i
x
i
=
0
\frac{\partial L}{\partial w} = w^* - \sum_{i=1}^{N} \alpha_i^* y_i x_i = 0
∂w∂L=w∗−i=1∑Nαi∗yixi=0
1. 公式的含义
这个公式是支持向量机优化问题中的站点条件,用于求解最优的法向量 w ∗ w^* w∗。公式中的每个符号的含义如下:
- w ∗ w^* w∗:这是优化过程中求得的最优法向量,定义了支持向量机的分类超平面。
- α i ∗ \alpha_i^* αi∗:这是优化求解得到的最优拉格朗日乘子,表示每个样本点的权重。 α i ∗ ≥ 0 \alpha_i^* \geq 0 αi∗≥0,并且只有 α i ∗ > 0 \alpha_i^* > 0 αi∗>0 的样本点(即支持向量)才会对分类超平面有贡献。
- y i y_i yi:是第 i i i 个样本的类别标签,取值为 + 1 +1 +1 或 − 1 -1 −1。
- x i x_i xi:是第 i i i 个样本的特征向量,表示样本点在特征空间中的位置。
- N N N:是样本的数量。
2. 公式的推导
该公式源自拉格朗日函数对 w w w 的求导,并设偏导数为 0 以满足最优性条件。
拉格朗日函数
L
(
w
,
b
,
α
)
L(w, b, \alpha)
L(w,b,α) 的定义为:
L
(
w
,
b
,
α
)
=
1
2
∥
w
∥
2
−
∑
i
=
1
N
α
i
(
y
i
(
w
T
x
i
+
b
)
−
1
)
L(w, b, \alpha) = \frac{1}{2} \|w\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (w^T x_i + b) - 1 \right)
L(w,b,α)=21∥w∥2−i=1∑Nαi(yi(wTxi+b)−1)
第一步:对 w w w 求导
为了找到最优法向量 w w w,我们对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导:
-
第一项 1 2 ∥ w ∥ 2 \frac{1}{2} \|w\|^2 21∥w∥2:这是关于 w w w 的二次项,其偏导数为:
∂ ∂ w ( 1 2 ∥ w ∥ 2 ) = w \frac{\partial}{\partial w} \left( \frac{1}{2} \|w\|^2 \right) = w ∂w∂(21∥w∥2)=w -
第二项 ∑ i = 1 N α i y i ( w T x i + b ) \sum_{i=1}^{N} \alpha_i y_i (w^T x_i + b) ∑i=1Nαiyi(wTxi+b) 中,只有 w T x i w^T x_i wTxi 与 w w w 有关,其偏导数为:
∂ ∂ w ( ∑ i = 1 N α i y i w T x i ) = ∑ i = 1 N α i y i x i \frac{\partial}{\partial w} \left( \sum_{i=1}^{N} \alpha_i y_i w^T x_i \right) = \sum_{i=1}^{N} \alpha_i y_i x_i ∂w∂(i=1∑NαiyiwTxi)=i=1∑Nαiyixi
第二步:设置偏导数为 0
我们将这两个偏导数结合,并设置偏导数为 0:
w
−
∑
i
=
1
N
α
i
y
i
x
i
=
0
w - \sum_{i=1}^{N} \alpha_i y_i x_i = 0
w−i=1∑Nαiyixi=0
从而得到最优法向量
w
∗
w^*
w∗ 的表达式:
w
∗
=
∑
i
=
1
N
α
i
∗
y
i
x
i
w^* = \sum_{i=1}^{N} \alpha_i^* y_i x_i
w∗=i=1∑Nαi∗yixi