线性可分支持向量机的原理推导 9-25对拉格朗日函数L(w,b,α) 关于w求导 公式解析

时间:2024-10-26 07:42:19

本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


公式 9-25,它表示对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导后的结果,并设定偏导数为 0 来找到最优解。我们来详细解释这个公式。

公式 9-25 的表达式为:
∂ L ∂ w = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 \frac{\partial L}{\partial w} = w^* - \sum_{i=1}^{N} \alpha_i^* y_i x_i = 0 wL=wi=1Nαiyixi=0

1. 公式的含义

这个公式是支持向量机优化问题中的站点条件,用于求解最优的法向量 w ∗ w^* w。公式中的每个符号的含义如下:

  • w ∗ w^* w:这是优化过程中求得的最优法向量,定义了支持向量机的分类超平面。
  • α i ∗ \alpha_i^* αi:这是优化求解得到的最优拉格朗日乘子,表示每个样本点的权重。 α i ∗ ≥ 0 \alpha_i^* \geq 0 αi0,并且只有 α i ∗ > 0 \alpha_i^* > 0 αi>0 的样本点(即支持向量)才会对分类超平面有贡献。
  • y i y_i yi:是第 i i i 个样本的类别标签,取值为 + 1 +1 +1 − 1 -1 1
  • x i x_i xi:是第 i i i 个样本的特征向量,表示样本点在特征空间中的位置。
  • N N N:是样本的数量。

2. 公式的推导

该公式源自拉格朗日函数对 w w w 的求导,并设偏导数为 0 以满足最优性条件。

拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 的定义为:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i ( y i ( w T x i + b ) − 1 ) L(w, b, \alpha) = \frac{1}{2} \|w\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (w^T x_i + b) - 1 \right) L(w,b,α)=21w2i=1Nαi(yi(wTxi+b)1)

第一步:对 w w w 求导

为了找到最优法向量 w w w,我们对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导:

  • 第一项 1 2 ∥ w ∥ 2 \frac{1}{2} \|w\|^2 21w2:这是关于 w w w 的二次项,其偏导数为:
    ∂ ∂ w ( 1 2 ∥ w ∥ 2 ) = w \frac{\partial}{\partial w} \left( \frac{1}{2} \|w\|^2 \right) = w w(21w2)=w

  • 第二项 ∑ i = 1 N α i y i ( w T x i + b ) \sum_{i=1}^{N} \alpha_i y_i (w^T x_i + b) i=1Nαiyi(wTxi+b) 中,只有 w T x i w^T x_i wTxi w w w 有关,其偏导数为:
    ∂ ∂ w ( ∑ i = 1 N α i y i w T x i ) = ∑ i = 1 N α i y i x i \frac{\partial}{\partial w} \left( \sum_{i=1}^{N} \alpha_i y_i w^T x_i \right) = \sum_{i=1}^{N} \alpha_i y_i x_i w(i=1NαiyiwTxi)=i=1Nαiyixi

第二步:设置偏导数为 0

我们将这两个偏导数结合,并设置偏导数为 0:
w − ∑ i = 1 N α i y i x i = 0 w - \sum_{i=1}^{N} \alpha_i y_i x_i = 0 wi=1Nαiyixi=0

从而得到最优法向量 w ∗ w^* w 的表达式:
w ∗ = ∑ i = 1 N α i ∗ y i x i w^* = \sum_{i=1}^{N} \alpha_i^* y_i x_i w=i=1Nαiyixi