Logistic回归又称Logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
应用:
一、寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。
二、预测,如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
三、判别,实际上跟预测有些类似,也是根据Logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
这是Logistic回归最常用的三个用途,实际中的Logistic回归用途是极为广泛的,Logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势。
首先,我们先来看一下Logistic回归的学习过程:
Logistic回归经常应用在病情预测的问题里面。假设给出一位病人的相关信息,那么我们应该如何预测他将来出现心脏病的可能性呢?
如果我们已经能够拥有了一些资料,那么我们就会轻易算出相应的概率:
但是实际上,在大多数情况下,我们不能够事先拥有这些数据,于是乎我们必须经过抽样等手段,把对应的圈圈叉叉的资料对应成相应的概率。
对应于上面提到的预测心脏病发生概率的例子,我们可以根据对应特征值
然后将s转化成Logistic函数
函数图像如图所示:
特别地,
接下来,我们将会来定义Logistic回归的错误度量。
在线性分类器中,错误的情况不是正确就是错误(0、1):
在线性回归分析中,错误的偏差值是偏离距离的平方值:
那么在Logistic回归中,我们该如何定义呢?
因为
又由于函数性质可知:
⇓
⇓
⇓
⇓
⇓
⇓
⇓
要想求得
令 =0
初始化
(1)计算,然后用
不断更新,代入上式计算,直到
在这过程之中,
如果,取值过小,迭代过程又会变得漫长。
只有取值恰当,才会尽可能快的求出最优解。