逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent

时间:2021-08-13 23:51:22

逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent


对于有m个样本的训练集 逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent。在上篇介绍决策边界的时候已经介绍过了在logistic回归中的假设函数为:逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 。因此我们定义logistic回归的代价函

数(cost function)为:
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent , 

下面来解释下这两个公式,先来看y=1时,逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent ,画出逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent的函数图像为:
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent

从图中可以看出,y=1,当预测值逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 时,可以看出代价函数cost的值为0,这正是我们希望的。如果预测值逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 即逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent ,意思是预测y=1的概率为0,但是事实上y=1,因此代价函数逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 相当于给学习算法一个惩罚。
同理我们也可以画出当y=0时,函数逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent的图像:

逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent

同样也能看出上面y=1时介绍的那些信息,我就不再说了。
对于上面的代价函数逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,其中逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 可以写成更加简洁的形式:
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent
上面这个公式更加简洁,可以看出,当y=1时,公式变为逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,y=0时,公式变为逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,这与上面分段写的公式完全等价。因此代价函数为: 
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent
为了求解使 逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent 最小的参数   逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,还是要用梯度下降(gradient descent),即:
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent
看来其和线性回归中的梯度下降函数形式一模一样,但其实是不一样的,因为在logistic回归中  逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent
为了让大家明白是如何求导逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent的(即逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent),我把这个公式的求导过程写一下:
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent
逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent

大家可以自己在纸上推推,对求导不熟悉的可以去补补高数上,微积分。
关于logistic回归里的代价函数和梯度下降就介绍到这。还有一些高级优化算法,如 conjugate gradient、BFGS和L-BFGS这些算法不需要手动选择学习率逻辑斯谛回归(代价函数,梯度下降) logistic regression--cost function and gradient descent,而且收敛的速度要远快于梯度下降。但是这些算法太过复杂,不太容易搞明白。

注意:再强调一下,写博客不容易,尤其编辑公式很花费时间。转载或者引用请注明原文作者和链接,尊重原创。最近发现有人公然复制博客当成自己的原创,这种行为不值得尊重。