SVM的基础原理

时间:2023-12-26 13:25:37

因为看cs231的时候用了一下multi-class的svm,所以又把svm给复习了一下,教材是周志华的西瓜书,这里是大概的笔记。

1.线性可分

对于一个数据集:

SVM的基础原理

如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧,超平面如下:

SVM的基础原理

那么数据集D就是线性可分的,否则,不可分。

w称为法向量,决定了超平面的方向;b为位移量,决定了超平面与原点的距离。

样本空间中的任意点x到超平面X的距离(不太熟悉的可以复习高数中空间几何那一章的内容)可以写为:

SVM的基础原理

使得下面两式成立的训练样本SVM的基础原理称为支持向量:

SVM的基础原理

两个异类支持向量(一个等于+1,一个等于-1)到超平面的距离之和为:

SVM的基础原理

它称之为“间隔”

SVM的基础原理

想找到最大间隔的划分超平面,就是使SVM的基础原理最大:

SVM的基础原理

等价于:

SVM的基础原理

这就是支持向量机的基本模型。

对偶问题:

上式的拉格朗日函数可写为:

SVM的基础原理

SVM的基础原理

其中,SVM的基础原理

对参数w和b求导可得:

SVM的基础原理

将上式带入到拉格朗日函数中,消去w和b,得到对偶表达式:

SVM的基础原理

SVM的基础原理

接着用SMO的方法来求解

SVM的基础原理

SVM的基础原理

接着求B,因为根据我们的受限条件,任意一个支持向量都可以计算b,但是为了模型的鲁棒性,接着我们把所有的支持向量来求平均

SVM的基础原理

其中S为支持向量集