在训练样本时搜索更加有效的那部分数据而不是所有数据,这种数据我们称为“支持向量”。对于支持向量的回归预测,采用不同的核函数会有不用的性能,下面不去介绍具体的算法,而是采用预测波斯顿房价一个案例来介绍三种不同核函数下的支持向量机的回归预测模型,并比较他们的性能。
使用的语言是python3.6版本,集成环境是Anaconda3。
1、源代码
from import load_boston
boston=load_boston()
print()
from sklearn.cross_validation import train_test_split
import numpy as np
X=
y=
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=33,test_size=0.25)
#分析回归目标值的差异
print('max:',(),'\tmin:',(),'\taverage:',())
from import StandardScaler
ss_X=StandardScaler()
ss_y=StandardScaler()
#标准化处理
X_train=ss_X.fit_transform(X_train)
X_test=ss_X.fit_transform(X_test)
y_train=ss_y.fit_transform(y_train)
y_test=ss_y.fit_transform(y_test)
#从中导入支持向量机模型
from import SVR
#使用线性核函数配置的支持向量机进行回归训练
linear_svr=SVR(kernel='linear')
linear_svr.fit(X_train,y_train)
linear_svr_y_predict=linear_svr.predict(X_test)
#使用多项式核函数配置的支持向量机进行回归训练
poly_svr=SVR(kernel='poly')
poly_svr.fit(X_train,y_train)
poly_svr_y_predict=poly_svr.predict(X_test)
#使用径向基核函数配置的支持向量机进行回归训练
rbf_svr=SVR(kernel='rbf')
rbf_svr.fit(X_train,y_train)
rbf_svr_y_predict=rbf_svr.predict(X_test)
#对三种核函数进行测评
print('R-squared value of linear SVR is ',linear_svr.score(X_test,y_test))
print('R-squared value of poly SVR is ',poly_svr.score(X_test,y_test))
print('R-squared value of rbf SVR is ',rbf_svr.score(X_test,y_test))
2、结果分析
运行的结果为:
R-squared value of linear SVR is 0.654497663771
R-squared value of poly SVR is 0.23496198912
R-squared value of rbf SVR is 0.71072756206
可以看出,不同配置下的模型在相同测试集上存在非常大的性能差异,并且在使用了径向基核函数对特征进行非线性映射之后,支持向量机展现了最佳的回归性能。
本博客内容有参考学习《Python机器学习及实践——从零开始通往Kaggle竞赛之路》