机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

感谢：

本次代码修改了原书中的个别bug，增加了原书中没有展示的数据可视化代码

那么，正文就从这里开始啦！（我的代码都是可直接运行的，只要环境正确）

1、svm01_SMO_base.py

'''
简化版的Platt SMO算法
100个测试点，训练需要数秒
数据可视化参考自：
javascript:void(0)
'''
from numpy import *
import matplotlib.pyplot as plt


# 处理数据
def loadData(filename):
    dataMat = []
    labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat


# 在已选中一个alpha的情况下再随机选择一个不一样的alpha
# m 是可选下标长度，i，j皆为下标
def selectJrand(i, m):
    j = i
    while (j == i):
        j = int(random.uniform(0, m))
    return j


# 调整大于H，或小于L的alpha值
def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if aj < L:
        aj = L
    return aj


'''
参数：数据集，类别标签，松弛变量C，容错率， 退出前最大的循环次数
C表示不同优化问题的权重，如果C很大，分类器会力图通过分离超平面将样例都正确区分，如果C很小又很难很好的分类，C值需要平衡两者
'''
def smoSimple(dataMatIn, classLabels, C, toler, maxIter):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose()
    b = 0
    m, n = shape(dataMatrix)
    alphas = mat(zeros((m, 1)))
    iter = 0
    while (iter < maxIter):  # 外循环
        alphaPairsChanged = 0
        for i in range(m):  # 内循环
            fXi = float(multiply(alphas, labelMat).T *
                        (dataMatrix * dataMatrix[i, :].T)) + b  # 预测类别，multiply：矩阵对应元素相乘
            Ei = fXi - float(labelMat[i])  # 预测误差 = 预测类别 - 实际类别，如果误差很大就要进行优化，如果在0-C之外，则已在边界，没有优化空间了，无需优化
            # 如果该数据向量可以被优化，则随机选择另一个数据向量，同时进行优化
            if ((labelMat[i] * Ei < -toler) and (alphas[i] < C)) or \
                    ((labelMat[i] * Ei > toler) and (alphas[i] > 0)):
                # 随机选择另一个数据向量
                j = selectJrand(i, m)
                fXj = float(multiply(alphas, labelMat).T *
                            (dataMatrix * dataMatrix[j, :].T)) + b  # 预测类别
                Ej = fXj - float(labelMat[j])  # 预测误差 = 预测类别 - 实际类别
                # 进行深拷贝，便于之后的新旧值比较
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                # 保证alpha在0-C之间
                if labelMat[i] != labelMat[j]:
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    '''
                    sum = alphas[i] + alphas[j]
                    如果 sum > C , 则 H = C，L = sum - C
                    如果 sum < C , 则 H = sum, L = 0
                    '''
                    L = max(0, alphas[i] + alphas[j] - C)
                    H = min(C, alphas[i] + alphas[j])
                if L == H:
                    print("L == H")
                    continue
                # eta是alpha[j]的最优修改量
                eta = 2.0 * dataMatrix[i, :] * dataMatrix[j, :].T - \
                      dataMatrix[i, :] * dataMatrix[i, :].T - \
                      dataMatrix[j, :] * dataMatrix[j, :].T
                # eta >= 0的情况比较少，并且优化过程计算复杂，所以此处做了简化处理，直接跳过了
                if eta >= 0:
                    print("eta >= 0")
                    continue
                # 获取alphas[j]的优化值
                alphas[j] -= labelMat[j] * (Ei - Ej) / eta
                alphas[j] = clipAlpha(alphas[j], H, L)
                # 比对原值，看变化是否明显，如果优化并不明显则退出
                if abs(alphas[j] - alphaJold) < 1e-5:
                    print("j not moving enough")
                    continue
                # 对alphas[i]进行和alphas[j]量相同、方向相反的优化
                alphas[i] += labelMat[j] * labelMat[i] * (alphaJold - alphas[j])
                b1 = b - Ei - labelMat[i] * (alphas[i] - alphaIold) * dataMatrix[i, :] * dataMatrix[i, :].T \
                     - labelMat[j] * (alphas[j] - alphaJold) * dataMatrix[i, :] * dataMatrix[j, :].T
                b2 = b - Ej - labelMat[i] * (alphas[i] - alphaIold) * dataMatrix[i, :] * dataMatrix[j, :].T \
                     - labelMat[j] * (alphas[j] - alphaJold) * dataMatrix[j, :] * dataMatrix[j, :].T
                if (0 < alphas[i]) and (C > alphas[i]):
                    b = b1
                elif (0 < alphas[j]) and (C > alphas[j]):
                    b = b2
                else:
                    b = (b1 + b2) / 2.0
                alphaPairsChanged += 1
                print("iter:", iter, "i:", i, ", pairs changed", alphaPairsChanged)

        '''
        如果所有向量都没有优化，则增加迭代数目，继续下一次循环
        当所有的向量都不再优化，并且达到最大迭代次数才退出，一旦有向量优化，iter都要归零
        所以iter存储的是在没有任何alpha改变的情况下遍历数据集的次数
        '''
        if alphaPairsChanged == 0:
            iter += 1
        else:
            iter = 0
        print("iteration number:", iter)
    return b, alphas


# 分析数据，数据可视化
def plot(dataMat, labelMat):
    dataArr = array(dataMat)
    num = shape(dataArr)[0]
    xcord1 = []
    ycord1 = []  # 标签为1的数据点坐标
    xcord0 = []
    ycord0 = []  # 标签为0的数据点坐标
    for i in range(num):
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i, 0])
            ycord1.append(dataArr[i, 1])
        else:
            xcord0.append(dataArr[i, 0])
            ycord0.append(dataArr[i, 1])
    fig = plt.figure()
    fig.set_size_inches(18.5, 18.5)
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord0, ycord0, s=30, c='green', marker='o')
    plt.show()

def calcWs(alphas, dataArr, classLabels):
    X = mat(dataArr)
    labelMat = mat(classLabels).transpose()
    m, n = shape(X)
    w = zeros((n, 1))
    for i in range(m):
        # 大部分的alpha为0，少数几个是值不为0的支持向量
        w += multiply(alphas[i] * labelMat[i], X[i, :].T)
    return w

# 画图并圈出支持向量的数据点
def plot_support(dataMat, labelMat, support_points, ws, b):
    dataArr = array(dataMat)
    num = shape(dataArr)[0]
    xcord1 = []
    ycord1 = []  # 标签为1的数据点坐标
    xcord0 = []
    ycord0 = []  # 标签为0的数据点坐标
    for i in range(num):
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i, 0])
            ycord1.append(dataArr[i, 1])
        else:
            xcord0.append(dataArr[i, 0])
            ycord0.append(dataArr[i, 1])
    fig = plt.figure()
    fig.set_size_inches(18.5, 18.5)
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord0, ycord0, s=30, c='green', marker='o')

    # 圈出支持向量
    for i in range(len(support_points)):
        x, y = support_points[i][0]
        plt.scatter([x], [y], s=150, c='none', alpha=.5, linewidth=1.5, edgecolor='red')

    # 绘制分离超平面
    x1 = max(dataMat)[0]
    x2 = min(dataMat)[0]
    b = float(b)
    a1 = float(ws[0][0])
    a2 = float(ws[1][0])
    y1, y2 = (-b - a1 * x1) / a2, (-b - a1 * x2) / a2
    plt.plot([x1, x2], [y1, y2])

    ax.grid(True)
    plt.show()


if __name__ == "__main__":
    dataArr, labelArr = loadData("data/testSet.txt")
    # 分析数据，画图
    # plot(dataArr, labelArr)

    b, alphas = smoSimple(dataArr, labelArr, 0.6, 0.001, 40)
    print(b)  # [[-3.84798638]]、[[-3.8362795]]
    # numpy 特有的 "数组过滤"语法，输出大于零的元素组成的矩阵

    ws = calcWs(alphas, dataArr, labelArr)

    print(alphas[alphas > 0])
    # 支持向量的个数
    print(shape(alphas[alphas > 0]))
    # 输出为支持向量的数据点
    support_points = []
    for i in range(100):
        if alphas[i] > 0.0:
            support_points.append([dataArr[i], labelArr[i]])
    print(support_points)
    # 画图并圈出支持向量，画出分离超平面
    plot_support(dataArr, labelArr, support_points, ws, b)

运行结果：

机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

2、svm02_SMO_full.py

'''
Platt SMO 算法完整版
相比简化版，不同在于alpha的选择方式上
应用了一些能够提速的启发式方法
'''
from numpy import *
import matplotlib.pyplot as plt
from svm01_SMO_base import *


# 采用仅包含一个init方法的类来存储各个重要值，方便输入和调用（调用起来比字典还要方便一点）
class Entity:

    def __init__(self, dataMatIn, classLabels, C, toler):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.toler = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        # eCache用于缓存误差，第一列是是否有效的标志位，第二列是实际的E值
        self.eCache = mat(zeros((self.m, 2)))


# 计算E值并返回，由于该过程出现频繁，因此单独立为函数
def calcEk(ent, k):
    fXk = float(multiply(ent.alphas, ent.labelMat).T *
                (ent.X * ent.X[k, :].T)) + ent.b
    Ek = fXk - float(ent.labelMat[k])
    return Ek


# 用于选择第二个alpha值，返回索引和误差值
def selectJ(i, ent, Ei):
    maxK = -1
    maxDeltaE = 0
    Ej = 0
    ent.eCache[i] = [1, Ei]
    validEcacheList = nonzero(ent.eCache[:, 0].A)[0]  # 获取有效值的行索引
    # 从现有的有效误差中寻找第二个alpha
    if len(validEcacheList) > 1:
        # 如果现有的有效误差至少两个（除了第一个alpha以外至少还有一个有效值），遍历所有有效误差，寻找步长最大化的那个alpha
        for k in validEcacheList:
            if k == i:
                continue
            Ek = calcEk(ent, k)
            deltaE = abs(Ei - Ek)
            if deltaE > maxDeltaE:
                maxK = k
                maxDeltaE = deltaE
                Ej = Ek
        return maxK, Ej
    else:
        # 如果现有有效误差只有1个（即第一个alpha），则说明这是第一次循环，直接在所有数据里面进行随机选择
        j = selectJrand(i, ent.m)
        Ej = calcEk(ent, j)
    return j, Ej


# 计算误差值，并存入缓存
def updateEk(ent, k):
    Ek = calcEk(ent, k)
    ent.eCache[k] = [1, Ek]


# 内循环
def innerL(i, ent):
    Ei = calcEk(ent, i)
    if ((ent.labelMat[i] * Ei < -ent.toler) and (ent.alphas[i] < ent.C)) or \
            ((ent.labelMat[i] * Ei > ent.toler) and (ent.alphas[i] > 0)):
        j, Ej = selectJ(i, ent, Ei)
        alphaIold = ent.alphas[i].copy()
        alphaJold = ent.alphas[j].copy()
        if ent.labelMat[i] != ent.labelMat[j]:
            L = max(0, ent.alphas[j] - ent.alphas[i])
            H = min(ent.C, ent.C + ent.alphas[j] - ent.alphas[i])
        else:
            L = max(0, ent.alphas[i] + ent.alphas[j] - ent.C)
            H = min(ent.C, ent.alphas[i] + ent.alphas[j])
        if L == H:
            print("L == H")
            return 0
        # eta是alpha[j]的最优修改量
        eta = 2.0 * ent.X[i, :] * ent.X[j, :].T - \
              ent.X[i, :] * ent.X[i, :].T - \
              ent.X[j, :] * ent.X[j, :].T
        # eta >= 0的情况比较少，并且优化过程计算复杂，所以此处做了简化处理，直接跳过了
        if eta >= 0:
            print("eta >= 0")
            return 0
        ent.alphas[j] -= ent.labelMat[j] * (Ei - Ej) / eta
        ent.alphas[j] = clipAlpha(ent.alphas[j], H, L)
        updateEk(ent, j)
        # 比对原值，看变化是否明显，如果优化并不明显则退出
        if abs(ent.alphas[j] - alphaJold) < 1e-5:
            print("j not moving enough")
            return 0
        ent.alphas[i] += ent.labelMat[j] * ent.labelMat[i] * (alphaJold - ent.alphas[j])
        updateEk(ent, i)
        b1 = ent.b - Ei - ent.labelMat[i] * (ent.alphas[i] - alphaIold) * ent.X[i, :] * ent.X[i, :].T \
             - ent.labelMat[j] * (ent.alphas[j] - alphaJold) * ent.X[i, :] * ent.X[j, :].T
        b2 = ent.b - Ej - ent.labelMat[i] * (ent.alphas[i] - alphaIold) * ent.X[i, :] * ent.X[j, :].T \
             - ent.labelMat[j] * (ent.alphas[j] - alphaJold) * ent.X[j, :] * ent.X[j, :].T
        if (0 < ent.alphas[i]) and (ent.C > ent.alphas[i]):
            ent.b = b1
        elif (0 < ent.alphas[j]) and (ent.C > ent.alphas[j]):
            ent.b = b2
        else:
            ent.b = (b1 + b2) / 2.0
        return 1
    else:
        return 0

'''
外循环函数
参数：数据集，类别标签，松弛变量C，容错率， 总共最大的循环次数，核函数
C表示不同优化问题的权重，如果C很大，分类器会力图通过分离超平面将样例都正确区分，如果C很小又很难很好的分类，C值需要平衡两者
'''
def smop(dataMatIn, classLabels, C, toler, maxIter):
    ent = Entity(mat(dataMatIn), mat(classLabels).transpose(), C, toler)
    iter = 0
    entireSet = True
    alphaPairsChanged = 0
    # 循环条件1：iter未超过最大迭代次数 && 循环条件2：上次循环有收获或者遍历方式为遍历所有值
    # 因为最终的遍历方式是趋向于遍历非边界值，如果仍在遍历所有值说明还需要更多的训练
    while iter < maxIter and ((alphaPairsChanged > 0) or entireSet):
        alphaPairsChanged = 0
        # 遍历所有的值
        if entireSet:
            for i in range(ent.m):
                alphaPairsChanged += innerL(i, ent)
            print("fullSet, iter:", iter, ", i:", i, ", pairs changed:", alphaPairsChanged)
            iter += 1
        # 遍历非边界值
        else:
            # 取出非边界值的行索引
            nonBoundIs = nonzero((ent.alphas.A > 0) * (ent.alphas.A < ent.C))[0]
            for i in nonBoundIs:
                alphaPairsChanged += innerL(i, ent)
            print("non-bound, iter:", iter, ", i:", i, ", pairs changed: ", alphaPairsChanged)
            iter += 1
        # 如果上次循环是遍历所有值，那么下次循环改为遍历非边界值
        if entireSet:
            entireSet = False
        # 如果上次循环是遍历非边界值但没有收获，则改为遍历所有值
        elif alphaPairsChanged == 0:
            entireSet = True
        print("iteration number: ", iter)

    return ent.b, ent.alphas


def calcWs(alphas, dataArr, classLabels):
    X = mat(dataArr)
    labelMat = mat(classLabels).transpose()
    m, n = shape(X)
    w = zeros((n, 1))
    for i in range(m):
        # 大部分的alpha为0，少数几个是值不为0的支持向量
        w += multiply(alphas[i] * labelMat[i], X[i, :].T)
    return w


if __name__ == "__main__":
    dataArr, labelArr = loadData("data/testSet.txt")
    # 此处取70%的数据作为训练数据
    trainArr = dataArr[0:70]
    trainLabel = labelArr[0: 70]
    # C表示不同优化问题的权重，如果C很大，分类器会力图通过分离超平面将样例都正确区分，如果C很小又很难很好的分类，C值需要平衡两者
    b, alphas = smop(trainArr, trainLabel, 0.6, 0.001, 30)
    # print(b, alphas) # [[-2.89901748]]

    # 计算w值
    ws = calcWs(alphas, trainArr, trainLabel)
    # print(ws) # [[ 0.7929368 ],[-0.16014993]]
    dataMat = mat(dataArr)
    # 此处将后面的30%数据作为测试数据（因为数据点本身分布得就很均匀，所以准确率很高）
    errorCount = 0.0
    testMat = dataMat[70: 100]
    testLabel = labelArr[70: 100]
    for i in range(len(testMat)):
        predict_label = (testMat[i] * mat(ws) + b)[0][0]
        # print(predict_label)
        if sign(predict_label) != sign(testLabel[i]):
            print("预测错误")
            errorCount += 1.0

    print("错误率为：", (errorCount / len(dataMat)))

运行结果：

机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

3、svm03_radial_basis_func.py

'''
引入径向基函数（一种常见的核函数）来将低维空间的数据映射到高维空间，从而解决低维空间中的非线性问题
note1：smop函数第一行代码需要改变，是书中没有提及的
note2：如果支持向量太少会得到很差的决策边界，如果支持向量太多也相当于每次都利用整个数据集进行分类，这种分类方法接近于k近邻
'''
from svm02_SMO_full import *

'''
核转换函数
kTup是一个元组，第一个参数是核函数类型，第二个参数是核函数可能需要的可选参数
'''
def kernelTrans(X, A, kTup):
    m, n = shape(X)
    K = mat(zeros((m, 1)))
    if kTup[0] == 'lin':
        K = X * A.T
    elif kTup[0] == 'rbf':
        for j in range(m):
            deltaRow = X[j, :] - A
            K[j] = deltaRow * deltaRow.T
        K = exp(K / (-1 * kTup[1] ** 2))
    else:
        raise NameError('Houston We Have a Problem -- That Kernel is not recognized')
    return K


class Entity:

    def __init__(self, dataMatIn, classLabels, C, toler, kTup):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.toler = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        # eCache用于缓存误差，第一列是是否有效的标志位，第二列是实际的E值
        self.eCache = mat(zeros((self.m, 2)))
        self.K = mat(zeros((self.m, self.m)))
        for i in range(self.m):
            self.K[:, i] = kernelTrans(self.X, self.X[i, :], kTup)


# 计算E值并返回，由于该过程出现频繁，因此单独立为函数
def calcEk(ent, k):
    fXk = float(multiply(ent.alphas, ent.labelMat).T * ent.K[:, k] + ent.b)
    Ek = fXk - float(ent.labelMat[k])
    return Ek


# 内循环
# 原来的ent.X[i, :] * ent.X[j, :].T改成了 ent.K[j, j]，只有类似格式进行了变动，其他没变
def innerL(i, ent):
    Ei = calcEk(ent, i)
    if ((ent.labelMat[i] * Ei < -ent.toler) and (ent.alphas[i] < ent.C)) or \
            ((ent.labelMat[i] * Ei > ent.toler) and (ent.alphas[i] > 0)):
        j, Ej = selectJ(i, ent, Ei)
        alphaIold = ent.alphas[i].copy()
        alphaJold = ent.alphas[j].copy()
        if ent.labelMat[i] != ent.labelMat[j]:
            L = max(0, ent.alphas[j] - ent.alphas[i])
            H = min(ent.C, ent.C + ent.alphas[j] - ent.alphas[i])
        else:
            L = max(0, ent.alphas[i] + ent.alphas[j] - ent.C)
            H = min(ent.C, ent.alphas[i] + ent.alphas[j])
        if L == H:
            print("L == H")
            return 0
        # eta是alpha[j]的最优修改量
        eta = 2.0 * ent.K[i, j] - ent.K[i, i] - ent.K[j, j]
        # eta >= 0的情况比较少，并且优化过程计算复杂，所以此处做了简化处理，直接跳过了
        if eta >= 0:
            print("eta >= 0")
            return 0
        ent.alphas[j] -= ent.labelMat[j] * (Ei - Ej) / eta
        ent.alphas[j] = clipAlpha(ent.alphas[j], H, L)
        updateEk(ent, j)
        # 比对原值，看变化是否明显，如果优化并不明显则退出
        if abs(ent.alphas[j] - alphaJold) < 1e-5:
            print("j not moving enough")
            return 0
        ent.alphas[i] += ent.labelMat[j] * ent.labelMat[i] * (alphaJold - ent.alphas[j])
        updateEk(ent, i)
        b1 = ent.b - Ei - ent.labelMat[i] * (ent.alphas[i] - alphaIold) * ent.K[i, i] \
             - ent.labelMat[j] * (ent.alphas[j] - alphaJold) * ent.K[i, j]
        b2 = ent.b - Ej - ent.labelMat[i] * (ent.alphas[i] - alphaIold) * ent.K[i, j] \
             - ent.labelMat[j] * (ent.alphas[j] - alphaJold) * ent.K[j, j]
        if (0 < ent.alphas[i]) and (ent.C > ent.alphas[i]):
            ent.b = b1
        elif (0 < ent.alphas[j]) and (ent.C > ent.alphas[j]):
            ent.b = b2
        else:
            ent.b = (b1 + b2) / 2.0
        return 1
    else:
        return 0


'''
外循环函数
参数：数据集，类别标签，松弛变量C，容错率， 总共最大的循环次数，核函数
C表示不同优化问题的权重，如果C很大，分类器会力图通过分离超平面将样例都正确区分，如果C很小又很难很好的分类，C值需要平衡两者
'''
def smop(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)):
    ent = Entity(mat(dataMatIn), mat(classLabels).transpose(), C, toler, kTup)
    iter = 0
    entireSet = True
    alphaPairsChanged = 0
    # 循环条件1：iter未超过最大迭代次数 && 循环条件2：上次循环有收获或者遍历方式为遍历所有值
    # 因为最终的遍历方式是趋向于遍历非边界值，如果仍在遍历所有值说明还需要更多的训练
    while iter < maxIter and ((alphaPairsChanged > 0) or entireSet):
        alphaPairsChanged = 0
        # 遍历所有的值
        if entireSet:
            for i in range(ent.m):
                alphaPairsChanged += innerL(i, ent)
            print("fullSet, iter:", iter, ", i:", i, ", pairs changed:", alphaPairsChanged)
            iter += 1
        # 遍历非边界值
        else:
            # 取出非边界值的行索引
            nonBoundIs = nonzero((ent.alphas.A > 0) * (ent.alphas.A < ent.C))[0]
            for i in nonBoundIs:
                alphaPairsChanged += innerL(i, ent)
            print("non-bound, iter:", iter, ", i:", i, ", pairs changed: ", alphaPairsChanged)
            iter += 1
        # 如果上次循环是遍历所有值，那么下次循环改为遍历非边界值
        if entireSet:
            entireSet = False
        # 如果上次循环是遍历非边界值但没有收获，则改为遍历所有值
        elif alphaPairsChanged == 0:
            entireSet = True
        print("iteration number: ", iter)

    return ent.b, ent.alphas


def testRbf(k1=1.3):
    dataArr, labelArr = loadData('data/testSetRBF.txt')
    # 参数：数据集，类别标签，松弛变量C，容错率， 总共最大的循环次数，核函数
    b, alphas = smop(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1))
    dataMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A > 0)[0]  # 支持向量的行索引
    sVs = dataMat[svInd]  # 支持向量的数据点
    labelSV = labelMat[svInd]  # 支持向量的类别标签
    print("There are", shape(sVs)[0], "support vectors")
    m, n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i, :], ('rbf', k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]):
            errorCount += 1
    print("the training error rate is", (float(errorCount) / m))

    dataArr, labelArr = loadData('data/testSetRBF2.txt')
    dataMat = mat(dataArr)
    m, n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i, :], ('rbf', k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]):
            errorCount += 1
    print("the test error rate is", (float(errorCount) / m))


if __name__ == "__main__":
    testRbf()

运行结果：

机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

4、svm04_handwriting_recognition.py

'''
基于SVM的数字识别
1、收集数据
2、准备数据：基于二值图像构造向量
3、分析数据：对图像向量进行目测
4、训练算法：采用两种不同的核函数，并对径向基核函数采用不同的设置来运行SMO算法
5、测试算法：测试，计算错误率
6、使用算法：要求一些图像处理的知识
note: 书中最大迭代次数设置为10000，实际运行要很久，此处改小为10。
'''
from svm03_radial_basis_func import *


# 将数字图像信息转换为矩阵
def img2vector(filename):
    returnVect = zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    # 将所有数据排在一行存储到 returnVect 矩阵
    return returnVect


'''
将手写识别问题转换为二分类问题，9类别为-1，非9类别为1
'''
def loadImage(dirName):
    from os import listdir
    hwLabels = []
    # 获取所有文件
    trainingFileList = listdir(dirName)
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    for i in range(m):
        fileFullName = trainingFileList[i]
        fileName = fileFullName.split('.')[0]
        # 文件名的前缀表示类别标签
        classNumStr = int(fileName.split('_')[0])
        if classNumStr == 9:
            hwLabels.append(-1)
        else:
            hwLabels.append(1)
        trainingMat[i, :] = img2vector(dirName + '/' + fileFullName)

    return trainingMat, hwLabels


def testDigits(kTup=('rbf', 10)):
    dataArr, labelArr = loadImage('handwriting_image_data2/trainingDigits')
    b, alphas = smop(dataArr, labelArr, 200, 0.0001, 10, kTup)
    dataMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A > 0)[0]
    sVs = dataMat[svInd]
    labelSV = labelMat[svInd]
    print("There are", shape(sVs)[0], "support vectors")
    m, n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i, :], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]):
            errorCount += 1
    print("the training error rate is", (float(errorCount) / m))

    dataArr, labelArr = loadImage('handwriting_image_data2/testDigits')
    dataMat = mat(dataArr)
    m, n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i, :], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]):
            errorCount += 1
    print("the test error rate is", (float(errorCount) / m))


if __name__ == "__main__":
    testDigits() # training error rate：0.08706467661691543，test error rate：0.05913978494623656

运行结果：（运行稍久）

机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

秒客网

机器学习实战(第六章-支持向量机-所有代码与详细注解-python3.7)

相关文章