吴恩达机器学习课程笔记（四）Logistic Regression

*个人学习笔记

一、写在前面的话

注意到Logistic Regression 和 Linear Regression从名字上非常类似（事实上不仅是名字），但是本质是不同的，必须进行区分，了解到他们的不同之处，具体的不同最后我会给出的。

二、线性回归模型解决分类问题（糟糕！）

首先我们尝试使用一个线性回归模型来计算一个肿瘤是否是恶性的，我们可以看到划一条直线hθ(x) = θTx，转化为一个阈值问题，大于0.5阈值的为1，小于为零，看起来不错。

吴恩达机器学习课程笔记（四）Logistic Regression

但如果我们在最右侧增加一个数据，那么拟合的曲线就会被拉偏，按照之前设置的阈值，就会产生分类错误。当然，改变阈值能够修正这一个结果。

吴恩达机器学习课程笔记（四）Logistic Regression

但是，你会发现，这个线性回归模型的结果有时会远远大于1对不对，因为是线性的，而非0/1两个值的输出，这就很难受。

吴恩达机器学习课程笔记（四）Logistic Regression

可以看到线性回归做这个是有一些不合适的，所以我们希望用Logistic Regression来解决这个分类问题，那么具体怎么做？一步步来。

二、Logistic Regression

1.1 假设函数

假设函数为 $h_{θ} (x) = g (θ^{T} x)$ , 其中 $g (z) = \frac{1/(}{1 + e^{- z}}$ ), $g (z)$ 叫做Sigmoid Function或者对率函数(Logistic Function).

吴恩达机器学习课程笔记（四）Logistic Regression

我们可以将对率函数的输出理解为当输入为x的时候, y=1的概率. 可以用 $h_{θ} (x) = P (y = 1 | x; θ)$

表达.（这个条件该概率的式子应该都知道，代表x和θ指定值下y = 1的概率）

那么为什么假设函数等于这个条件概率的公式呢？

以肿瘤为例，代入计算x和θ值，然后代入sigmoid得出的会是一个0到1的数字对不对，把这个当作得肿瘤的概率，就可以想明白了。

1.2 决策边界 Decision Boundary

吴恩达机器学习课程笔记（四）Logistic Regression

我们可以看到，根据sigmoid，当z = 0时， g（z） = 0.5，如果把0.5当作一根分界线（也就是决策边界），我么可以说＞0.5的就是预测值为1，＜的自然就是0了；即当 $θ^{T} x \geq 0$ 时, 预测 $y = 1$ ；当 $θ^{T} x < 0$ 时, 预测 $y = 0$