6 支持向量机

6.1 间隔与支持向量

给定训练样本集 $D=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2),\cdots,(\boldsymbol x_m,y_m)\}$ ， $y\in\{-1,+1\}$ , 分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多，所以应该努力去找划分结果最鲁棒的那个平面，也就是图6.1中中间那条加粗的。
周志华机器学习（6）：支持向量机
这张图中，两个轴 $x_1$ 、 $x_2$ 是 $\boldsymbol x$ 的属性，这里假定有两个属性。其实应该加上垂直于纸面表示标记的y轴，在这里，从y轴垂直往下看，y轴被压缩成了一个点。划分超平面公式：
周志华机器学习（6）：支持向量机

如图6.2所示,距离超平面最近的这几个训练样本点使式(6.3)的等号成立，它们被称为“支持向量”(support vector)，两个异类支持向量到超平面的距离之和为：

这个约束就是式(6.3)的变种。式(6.5)可以重写为：
周志华机器学习（6）：支持向量机

6.2 对偶问题（dual problem）

拉格朗日：通过拉格朗日的办法重新定义一个无约束问题这个无约束问题等价于原来的约束优化问题，从而将约束问题无约束化。
如果原始问题求解棘手，在满足KKT的条件下用求解对偶问题来代替求解原始问题，使得问题求解更加容易。
对偶问题的上界在KKT条件下等于原始问题的下界，因为原问题求解太复杂，就可以在满足KKT条件下求解对偶问题。
拉格朗日对偶问题（Lagrange duality）

希望求解式(6.6)，用拉格朗日乘子法得到其对偶问题，就是对每一个约束都添加拉格朗日乘子 $\alpha_i\geq 0$ ，则拉格朗日函数为：
周志华机器学习（6）：支持向量机