【机器学习导引】ch3-线性模型-2

梯度下降法的基本思路
梯度下降法是一种优化算法，目的是找到函数 $f (x)$ 的最小值。图中提到“如果能找到一个序列 $x_0, x_1, x_2, \dots$ ” ，使得每一步都满足： $f(x_{t+1}) < f(x_t)$
这意味着每一步更新 $x$ 的时候，函数 $f (x)$ 的值都在下降，也就是朝着局部最小点的方向移动。
局部极小点问题
当你每一步都保证 $f(x_{t+1}) < f(x_t)$ ，最终会收敛到一个点，这个点就是局部极小点。
为什么呢？
这是因为梯度下降法的原理是沿着函数下降最快的方向（即负梯度方向）进行移动，而负梯度的方向是函数值减少最快的方向。因此，经过多次迭代，函数值会越来越小，最终到达一个局部极小点。这时，梯度接近 $0$ ，意味着不再有下降的空间，也就不能再继续下降了。
如果 $f (x)$ 是凸函数，局部极小点就是全局最小点为什么呢？
这是凸函数的一个重要性质：对于凸函数，局部极小点和全局极小点是重合的。换句话说，如果函数是凸的，那它只有一个最小值，且该最小值一定是全局最小值。梯度下降法在凸函数上的应用就显得特别有效，因为它能够确保找到的局部极小点就是全局最小点。

总结一下：

梯度下降法的核心就是通过不断迭代，使得目标函数的值逐渐减小，直到找到最小值或者停滞在某个点（即梯度为 $0$ ）。

对于一元函数 $f (x)$ 来说，变量 $x$ 的变化有两个方向：
- 向右（即 $\Delta x > 0$ ）
- 向左（即 $\Delta x < 0$ ）

泰勒展开是用来近似函数的一种方法。对于函数 $f (x)$ ，它可以展开为：

$\Delta x) = f(x) + f'(x) \Delta x + \frac{f^{(2)}(x)}{2!} \Delta x^2 + \dots + o(\Delta x^n)$

其中 $f^{'} (x)$ 是 $f (x)$ 的一阶导数， $f^{(2)}(x)$ 是二阶导数，依此类推。
当 $\Delta x$ 足够小时，泰勒展开式可以简化为：

$\Delta x) \approx f(x) + f'(x) \Delta x$

梯度下降的目标是让 $\Delta x) < f(x)$ ，即在每一步迭代中，让函数值下降。
要实现这一点，需要保证 $\Delta x < 0$ ，也就是说，导数 $f^{'} (x)$ 和 $\Delta x$ 的乘积必须为负值。
- 如果 $f^{'} (x) > 0$ ，我们选择 $\Delta x < 0$ 。
- 如果 $f^{'} (x) < 0$ ，我们选择 $\Delta x > 0$ 。
当 $f (x)$ 为多元函数时，梯度 $\nabla f(x)$ 替代一元函数的导数，梯度的方向是函数增长最快的方向。因此，我们需要沿着梯度的相反方向移动，使得函数值下降。

我们定义 $\Delta x = -\eta \nabla f(x)$ ，其中 $\eta$ 为步长，表示每次更新时移动的距离。步长 $\eta$ 必须是一个较小的正数。
这样，更新的方向就是沿着梯度的反方向，即函数值减少的方向。通过这个公式，可以保证每次迭代后函数值都会下降：

$\Delta x \nabla f(x) = -\eta (\nabla f(x))^2 < 0$

通过这个思路，最终的梯度下降法的更新公式就是：

$x_{t+1} = x_t - \eta \nabla f(x_t)$

这表示在每次迭代时，用当前点的梯度乘以一个步长 $\eta$ ，然后从当前点 $x_t$ 减去这个值，得到下一个点 $x_{t+1}$ 。

图中提到，线性回归模型的输出可以表示为：

$z = w^T x + b$

其中：

这个公式表示的是一个简单的线性组合。对于分类任务，我们希望输出值 $y$ 是 $0$ 或 $1$ 。

理想情况下，我们希望通过线性回归的输出值 $z$ 来决定 $y$ 的取值。如果 $z > 0$ ，那么 $y = 1$ ，表示属于某一类；如果 $z < 0$ ，那么 $y = 0$ ，表示属于另一类。这就是 单位阶跃函数 的定义：

$\begin{cases} 1, & z > 0 \\ 0.5, & z = 0 \\ 0, & z < 0 \end{cases}$

秒客网