本文是将文章《近似线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 9-37 解释:
公式 9-37 是用于近似线性可分支持向量机(SVM) 的约束条件。在近似线性可分的情况下,数据集中的某些样本可能无法被一个超平面完美地分开,因此我们引入了一个松弛变量 ξ i \xi_i ξi 来允许某些样本点违反硬间隔的约束。
1. 公式 9-37 的形式:
y i ( w T x i + b ) + ξ i ≥ 1 y_i(w^T x_i + b) + \xi_i \geq 1 yi(wTxi+b)+ξi≥1
2. 公式各部分的含义:
- y i y_i yi:是第 i i i 个样本的标签,取值为 ± 1 \pm 1 ±1,表示样本的类别。
- w T x i w^T x_i wTxi:是样本 x i x_i xi 投影到超平面上的结果,表示 x i x_i xi 距离超平面的距离。
- b b b:是偏置项,用于控制超平面与原点的距离。
- ξ i \xi_i ξi:是松弛变量(slack variable),用于允许某些样本点不严格满足 y i ( w T x i + b ) ≥ 1 y_i(w^T x_i + b) \geq 1 yi(wTxi+b)≥1 的硬间隔条件。松弛变量允许一些样本点出现在分类边界的错误一侧或者在边界上,甚至被错误分类。
3. 公式的解释:
公式 y i ( w T x i + b ) + ξ i ≥ 1 y_i(w^T x_i + b) + \xi_i \geq 1 yi(wTxi+b)+ξi≥1 是软间隔支持向量机的约束条件。
-
硬间隔条件:在线性可分的情况下,硬间隔支持向量机要求所有的样本 x i x_i xi 都严格满足 y i ( w T x i + b ) ≥ 1 y_i(w^T x_i + b) \geq 1 yi(wTxi+b)≥1,即所有样本都要在超平面的正确一侧,且与分类边界保持一定的间隔。
-
软间隔条件:然而,对于近似线性可分的情况,有些样本点无法满足硬间隔条件。因此,引入松弛变量 ξ i \xi_i ξi 来放松这些约束。对于那些难以分类的样本点,允许它们稍微靠近或穿越分界线,但我们希望通过惩罚的方式来限制这样的点的数量。
-
松弛变量 ξ i \xi_i ξi:当 ξ i = 0 \xi_i = 0 ξi=0 时,表示样本 x i x_i xi 完全满足硬间隔条件;当 ξ i > 0 \xi_i > 0 ξi>0 时,表示样本点 x i x_i xi 未能完全满足硬间隔约束。这意味着样本点可能离超平面更近,甚至出现在错误的一侧。通过引入 ξ i \xi_i ξi,模型允许了一定的误分类,但我们希望通过优化来最小化这些松弛变量的总和。
4. 直观理解:
在硬间隔 SVM 中,我们要求每个点严格满足 y i ( w T x i + b ) ≥ 1 y_i(w^T x_i + b) \geq 1 yi(wTxi+b)≥1,即每个样本点都应该在超平面正确的两侧。然而,现实中的数据往往并非完全线性可分,因此我们允许一些点在分类过程中不满足这个条件,使用松弛变量 ξ i \xi_i ξi 来表明分类过程中出现的误差:
- 当 ξ i = 0 \xi_i = 0 ξi=0 时,样本 x i x_i xi 完全正确分类并且保持足够大的间隔。
- 当 0 < ξ i ≤ 1 0 < \xi_i \leq 1 0<ξi≤1 时,样本被正确分类,但没有足够大的间隔。
- 当 ξ i > 1 \xi_i > 1 ξi>1 时,样本被错误分类。
引入松弛变量可以使得模型更适用于近似线性可分的数据集,通过允许一些误分类来增强模型的泛化能力。
5. 与硬间隔 SVM 的区别:
- 硬间隔 SVM:要求所有样本点严格在分类边界的正确一侧,并保持一定的分类间隔。
- 软间隔 SVM(公式 9-37 所描述的情况):允许一些样本点不满足分类间隔约束,但通过引入惩罚项来限制这些样本点的数量,并将这些误分类的影响最小化。
总结:
公式 9-37 是支持向量机在处理近似线性可分问题时的约束条件。为了处理某些无法完美分隔的样本,软间隔支持向量机引入了松弛变量 ξ i \xi_i ξi,使得分类模型可以处理一些错误分类,同时通过优化过程尽量最小化误分类的样本点数量。