logistic regression从字面意思上以为它是一种回归算法,但实际上是线性的二分类方法。逻辑回归是机器学习中最常见且模型简单的算法,主要应用于流行性病学和个人信誉预测方面。
逻辑回归函数:
其中自变量可以变换成如下:
其中xi为第i个·特征;系数为参数;
所以预测函数为:
我们假设
P(y=1|x:θ) = hθ(x);
P(y=0|x:θ) = 1-hθ(x);
所以P(y|x:θ) = hθ(x)^y*(1-hθ(x))^(1-y);
假设有N个样本
极大似然估计:
取log得
这里的l(θ)为目标函数,无约束优化采用梯度上升法:
所以
在求解上式的时候有两种方法:
一种梯度上升
算法:
for j to H:
每更新一次参数整个数据集都用上;
endfor
适合特征少数据量小的时候
二种随机梯度上升
for j to H:
for i to N:
每跟新一次参数只用一个样本;
endfor
endfor
优点:收敛快,适应纬度高和数据量大时候的情况
为了防止模型的过拟合方法:
1、减少特征;
2、加上正则项;这里加正则项的时候注意这是梯度上升法,所以是原目标函数减正则项;
逻辑回归的优缺点:
优点:
1、模型简单,计算量小;
2、很容易吸收新的数据,更新参数;
缺点:
只适合二分类且线性分类