【机器学习笔记2】线性模型之逻辑回归

时间:2022-11-04 23:53:03

本博客仅为作者记录笔记之用,不免有很多细节不对之处。

还望各位看官能够见谅,欢迎批评指正。


从线性回归到逻辑回归[1]

       逻辑回归(Logistic Regression)不是回归问题,而是一个分类问题。这里先从二元分类开始讨论。

笔记1我们说到了线性回归,然后线性回归只能预测连续的值。然而对于分类问题,我们需要输出0或1。

如果我们继续用线性回归来解决分类问题,如下图所示我们将获得一条粉红色直线。我们可以设定阈值0.5,对于输入x,当hθ(x) ≥ 0.5时,我们认为x是1类,当hθ(x) < 0.5时,我们认为x是0类。这好像也解决了我们的分类问题,然而事实并非如此。

【机器学习笔记2】线性模型之逻辑回归


       假设我们又观测到一个很大的1类,我们将其加入到我们的训练集中来,我们将获得一条如下图所示蓝色的直线。这时候再使用0.5作为阈值便不合适了。可以看出,线性回归模型,因其预测的值可以超越[0,1]的范围,并不适合解决这样的分类问题。

【机器学习笔记2】线性模型之逻辑回归


【机器学习笔记2】线性模型之逻辑回归

【机器学习笔记2】线性模型之逻辑回归


判定边界

【机器学习笔记2】线性模型之逻辑回归

【机器学习笔记2】线性模型之逻辑回归


代价函数

【机器学习笔记2】线性模型之逻辑回归

这里为什么是非凸函数?

【机器学习笔记2】线性模型之逻辑回归

【机器学习笔记2】线性模型之逻辑回归

为什么这里的代价函数可以这样定义?

【机器学习笔记2】线性模型之逻辑回归

求导后得到:

【机器学习笔记2】线性模型之逻辑回归

怎么求导得到的?


代码示例[2]

批量梯度上升算法

批量梯度上升算法伪代码如下:

{

    每个回归系数初始化为1

    重复R次:

        计算整个数据集的梯度

        w := w + alpha * gradient更新回归系数向量

    返回回归系数

}

logRegres.py
#!/usr/bin/python
# -*- coding: UTF-8 -*-
'''
Created on Oct 27, 2010
Logistic Regression Working Module
@author: Peter
'''
from numpy import *

def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n, 1))
    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult

        # 梯度上升法
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose() * error  # matrix mult

        # 梯度下降法
        #error = (h - labelMat)  # vector subtraction
        #weights = weights - alpha * dataMatrix.transpose() * error  # matrix mult
    return weights

def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] 
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2');
    plt.show()

main.py

import logRegres
dataArr, labelMat = logRegres.loadDataSet()
weights = logRegres.gradAscent(dataArr, labelMat)
print(weights)

logRegres.plotBestFit(weights.getA())

随机梯度上升算法

批量梯度上升法在每次更新回归系数时都要遍历整个数据集,该方法在处理100个左右的数据集时尚可,但如果有数十亿样本和成千上万的特征,那么该方法的计算复杂度就太高了。一种改进的方法是一次仅用一个样本点来更新回归系数,该方法称为随机梯度上升法。由于可以在新样本到来时对分类器进行增量式更新,因而随机梯度上升法是一个在线学习算法。

随机梯度上升算法伪代码如下:

{

    所有回归系数初始化为1

    重复R次:   # (文献[2]将这里的迭代R次算作是改进的随机梯度上升法)

        对数据集中的每个样本:

            计算该样本的梯度

            w := w + alpha * gradient更新回归系数值

    返回回归系数

}

更新到logRegres.py

def stocGradAscent0(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    alpha = 0.01
    weights = ones(n)   #initialize to all ones
    for j in range(numIter):
        for i in range(m):
            h = sigmoid(sum(dataMatrix[i] * weights))
            error = classLabels[i] - h
            weights = weights + alpha * error * dataMatrix[i]
    return weights
>>>画出系数图


参考文献

[1] 黄海广. MIT 机器学习教程

[2] Peter. 机器学习实战