什么是逻辑斯蒂回归,参见*的解释点击打开链接。
后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解(越是基础的东西越难讲清楚)。在这里我对逻辑斯蒂回归记录一点自己的认识。
两个问题:
Q1,为什么选用logistic function?
Q2,logistic regression到底在做什么?
Q1,为什么选用logistic function?
Q2,logistic regression到底在做什么?
logistic regression建模时候无非就是找到一组非常合适的参数。这组参数按照什么样的标准去找? 参数变化导致什么在变? 我觉得这两个问题弄清楚,那么对logistic regression也就有了一个直观的认识。
简单起见,stanford的Andrew的课程中,从cost function出发去分析。为什么选用这个cost function。课程里面讲解是因为有牛人证明过他是凸的,他是有全局最优解的,我们可以使用梯度下降,牛顿法等去寻找这参数组。当然也可能存在其他的cost function,按照其他的标准去寻找。
在coursera中:
hypothesis是:
单个样本cost function是:
总体样本的cost function是:
我们的目标就是去寻找一组参数组;,最小化上述的总体样本的cost即 的数值。cost function是什么样的?我们将单个cost function拆开来看,如下图
图1,logistic regression对于单个样本的cost function(平滑的那条线,不是那边折线)
*图片来自coursera中Andrew Ng讲授的Machine Learning的课件
图2,经过参数组w映射后的logit函数。
*图片来自coursera中Andrew Ng讲授的Machine Learning的课件
我们会发现对于单个样本, 他进过映射后(也就是)成为进入另一个坐标系(图中画的那个坐标系)。我们看到对于,在我们的寻找标准(也就是cost function)中,我们是希望这个训练样本,如果他是正例(标记为1的样本,对应于图1中左边的坐标系),我们希望他进过映射后的能够很大,以至于cost很小,接近于0;如果他是负例(标记为0的样本,对应于图1中右边的坐标系),我们希望它经过映射后的能够很小,以至于cost很小,接近于0。单看某一个样本,调整参数组 ,它自己的cost可以很小。但是我们是希望总体的cost即(注意是对所有样本的cost求和)最小。
对于某一个样本,变化参数组,它自身的cost可能变小很多,但是对于其他的样本,他们的cost也同时在变化。也就是说对于单个样本最好的参数组,不一定是对于所有样本最好的参数组。我们调整参数组,就是希望样本映射后的,在图2中正例尽量往左侧靠(它的p就非常接近1),负例尽量往右侧靠(它的p非常接近0)。具体做法,就是选择一组参数,然后观察样本映射后的分布。然后按照最小化cost的标准去调整参数组,使用调整后的去映射样本,然后继续观察样本映射后的分布,继续调整下去.....
注意,当某一组参数;,使得样本的判别全部正确(正例样本都分类为1,负例样本都分类为0 ),此时的也不一定的最优的。因为全部全别正确,只是说明映射后在图2中正例全部在右侧,负例全部在左侧。但此时可能不是往两端靠近。切记,我们找到的参数组,是使得样本映射后的总体往两端靠的最远。
原作者:
http://blog.csdn.net/hellonlp/article/details/17629231
参考博客:
http://hi.baidu.com/hehehehello/item/40025c33d7d9b7b9633aff87