神经网络（二）——深入理解反向传播的四个基本方程

由于神经网络覆盖的内容比较多,一时提笔不知从何开始说起,刚好看到这一章以公式为主,因此先入手这一章。本章参考书籍《神经网络与深度学习》以及三蓝一棕的B站视频。

1.预备知识

我们先来看一张图，了解一下我们的符号定义：

我们首先给出网络中权重的定义：

w_{j k}^{l}

表示从第

l - 1

层的的

k

个神经元到

l

层的第

j

个神经元的连接的权重，可能大家会觉得这里权重的下标

j

和

k

应该调换，但是在之后的表达中，这样写会有一些好处。

我们继续来看一张图：

我们对网络的偏置和**值也使用类似的表达。我们使用

b_{j}^{l}

表示在第

l

层第

j

个神经元的偏置，使用

a_{j}^{l}

表示第

l

层第

j

个神经元的**值。
有了这些符号表示，第

l

层第

j

个神经元的**值

a_{j}^{l}

就和第

l - 1

层的**值关联起来了：
神经网络（二）——深入理解反向传播的四个基本方程

我相信你能看懂这个公式，举个例子，就是第二层的第一个神经元的**值（值在0-1之间），是由第一层所有神经元的**值乘上对应的权重矩阵（即每个**值的重要程度）求和，然后加上第二层第一个神经元的偏置，最后通过整体利用sigmoid函数压缩到0-1的范围内。
但是一直看这个公式相信大家也会觉得很麻烦，毕竟太多的上标和下标要去思考含义，那我们就简化一下：
神经网络（二）——深入理解反向传播的四个基本方程

这样就简洁多了，为了在后面介绍四个方程时方便，我们引入一个中间量

z^{l} = w^{l} a^{l - 1} + b^{l}

，我们称

z^{l}

称为

l

层的带权输入。则上面的式子有时也可以写成

a^{l} = σ (z^{l})

。同样要指出的是

z^{l}

的每个元素是：

2. 反向传播的四个基本方程

我们要始终明确反向传播的目的是什么：反向传播算法是单个训练样本修改权重与偏置，影响代价函数的过程。最终极的含义就是计算偏导数: $\frac{\partial C}{\partial ω {_{j k}}^{l}}$ 和 $\frac{\partial C}{\partial b {_{j}}^{l}}$ ，也就是告诉我们在改变权重和偏置时，代价函数变化的快慢，我们希望沿着速度最快的方向改变代价函数。注意，为了方便计算，我们还是引入一个中间量 $δ_{j}^{l}$ ，这个我们称为在第 $l$ 层第 $j$ 个神经元上的误差。
这个误差是什么，如何来理解呢？我们先来看一下它的定义： $δ_{j}^{l} \equiv \frac{\partial C}{\partial z {_{j}}^{l}}$ ，其实我们可以发现它其实是一个误差的度量，是一个变化率。假设在第 $l$ 层第 $j$ 个神经元上有一个微小的变化 $△ z_{j}^{l}$ ，使得神经元输出由 $σ (z_{j}^{l})$ 变成了 $σ (z_{j}^{l} + △ z_{j}^{l})$ 。这个变换会向网络后面的层进行传播，最终导致整个代价产生 $\frac{\partial C}{\partial z_{j}^{l}} Δ z_{j}^{l}$ 。如果我们能找到使代价函数减小的 $Δ z_{j}^{l}$ ，并且使它与 $\frac{\partial C}{\partial z {_{j}}^{l}}$ 变化率的符号相反，那么最终会使代价函数更小。
可能大家会疑惑为什么这里要用 $z^{l}$ ，如果用**值 $a_{j}^{l}$ 表示度量误差的方法可能会更好理解。大家不要过于纠结这里，用前一种方法来表示会在后面公式推导的过程中更加方便，同样对这里误差的含义也不用太过纠结，我们就把它看成中间量。

2.1 四个方程的定义

1. 输出层误差的方程， $δ^{l}$ ，每个元素定义如下：

$\begin{array}{rcl} (BP1) & δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{L}) . \end{array}$
右式第一项 $\partial C / \partial a_{j}^{L}$ 表示代价随着第j个输出**值的变化而变化的速度。假设C不太依赖一个特定的输出神经元j，即变化率很小，那么 $δ_{j}^{L}$ 就会很小，这也是我们想要的效果。右式第二项 $σ^{'} (z_{j}^{L})$ 为在 $z_{j}^{l}$ 处**函数 $σ$ 变化的速度。
以上是按每个元素分量定义的公式，如果以矩阵形式来表示，则为：
$\begin{array}{rcl} (BP1a) & δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{L}) . \end{array}$
这里 $\nabla_{a} C$ 被定义成一个向量，其元素是偏导数 $\partial C / \partial a_{j}^{L}$ 。你可以将 $\nabla_{a} C$ 看成是代价函数C关于输出**值的改变速度。中间的那个符号表示为Hadamard乘积，其含义如下：

\begin{array}{rcl} (1) & [\begin{matrix} 1 \\ 2 \end{matrix}] ⊙ [\begin{matrix} 3 \\ 4 \end{matrix}] = [\begin{matrix} 1 * 3 \\ 2 * 4 \end{matrix}] = [\begin{matrix} 3 \\ 8 \end{matrix}] . \end{array}

（BP1）和（BP1a）是等价的。

2. 使用下一层的误差 $δ^{l + 1}$ 来表示当前层的误差 $δ^{l}$ ：

\begin{array}{rcl} (BP2) & δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) ⊙ σ^{'} (z^{l}) \end{array}

这个公式乍一看比较复杂，我们先不管它是如何推导出来的。先直观感受一下，我们一旦知道了当前层的误差，就可以求前一层的误差！这就引出了反向传播的感觉。通过组合（BP1）和（BP2），我们可以通过（BP1）计算当前层误差

δ^{l}

，通过（BP2）计算

δ^{l - 1}

，再用（BP2）计算

δ^{l - 2}

，一步步反向传播整个网络。

3. 代价函数关于网络中任意偏置的变化率：

\begin{array}{rcl} (BP3) & \frac{\partial C}{\partial b_{j}^{l}} = δ_{j}^{l} . \end{array}

神奇的发现误差 $δ_{j}^{l}$ 和偏导 $\frac{\partial C}{\partial b_{j}^{l}}$ 结果完全一样，这里可以发现，我们定义误差为z的好处了。

4. 代价函数关于任何一个权重的变化率：

\begin{array}{rcl} (BP4) & \frac{\partial C}{\partial w_{j k}^{l}} = a_{k}^{l - 1} δ_{j}^{l} . \end{array}

直观来看一下，可以发现右式第一项是输入给权重w的神经元的**值，右式第二项是输出自权重w的神经元的误差。当输入的**值很小的时候，偏导数的值也会很小，我们可以得到一个结果，即来自低**值神经元的权重学习会非常缓慢，基本已经饱和了。
回忆一下sigmoid函数的形状，结合（BP1）中的项

σ^{'} (z_{k}^{l})

，当

σ (z_{k}^{l})

近似为0或者1的时候，

σ

函数非常平缓，则

σ^{'} (z_{k}^{l})

近似为0。所以如果输出神经元处于低**值或者高**值状态时，最终层的权重学习缓慢，这样我们称神经元已经饱和了。
总结一下4个公式：

2.2 四个方程的证明

为了给大家更直观的证明，我们先进行单个参数的公式证明，假设一些内容：

C = \frac{1}{2} (a^{l} - y)^{2}

；

z^{l} = w^{l} a^{l - 1} + b^{l}

；

a^{l} = σ (z^{l})

所有的证明都是基于多元微积分的链式法则：首先是BP1

\begin{array}{rcl} (2) & δ^{l} & = & \frac{\partial C}{\partial z^{l}} \\ (3) & = & \frac{\partial C}{\partial a^{l}} * \frac{\partial a^{l}}{\partial z^{l}} \\ (4) & = & (a^{l} - y) * σ^{'} (z^{l}) \end{array}

这就是链式法则，来，我们继续BP2:

\begin{array}{rcl} (5) & δ^{l} & = & \frac{\partial C}{\partial z^{l}} \\ (6) & = & \frac{\partial C}{\partial z^{l + 1}} * \frac{\partial z^{l + 1}}{\partial z^{l}} \\ (7) & = & δ_{j}^{l + 1} * \frac{\partial (w^{l + 1} a^{l} + b)}{\partial z^{l}} \\ (8) & = & δ_{j}^{l + 1} * \frac{\partial (w^{l + 1} σ (z^{l}) + b)}{\partial z^{l}} \\ (9) & = & δ_{j}^{l + 1} * w^{l + 1} * σ^{'} (z^{l}) \end{array}

继续，相信你也差不多知道BP3和BP4怎么证明了：BP3

\begin{array}{rcl} (10) & \frac{\partial C}{\partial b^{l}} & = & \frac{\partial C}{\partial a^{l}} * \frac{\partial a^{l}}{\partial z^{l}} * \frac{\partial z^{l}}{\partial b^{l}} \\ (11) & = & (a^{l} - y) * σ^{'} (z^{l}) * 1 \\ (12) & = & δ^{l} \end{array}

最后一个BP4:

\begin{array}{rcl} (13) & \frac{\partial C}{\partial w^{l}} & = & \frac{\partial C}{\partial a^{l}} * \frac{\partial a^{l}}{\partial z^{l}} * \frac{\partial z^{l}}{\partial w^{l}} \\ (14) & = & (a^{l} - y) * σ^{'} (z^{l}) * a^{l - 1} \\ (15) & = & a^{l - 1} δ^{l} \end{array}

以上就是针对单个参数的证明过程，同理对于多参数的情况，同样是利用链式法则来计算，这就大家自己去证明，主要就是加了一个求和的过程。

3.总结

上述虽然是说的4个方程，但是还是提醒大家注意反向传播的目的究竟是什么，最后要得到的还是代价函数对偏置和权重的求偏导（即是让单个训练样本代价函数能够改变的最快），因此（BP3）和（BP4）是我们最终要求的，（BP1）和（BP2）是帮助我们理解反向传播和计算方便的中间量。

键盘不灵了，打字贼痛苦。之后会出神经网络1的讲解

秒客网

神经网络（二）——深入理解反向传播的四个基本方程

1.预备知识

2. 反向传播的四个基本方程

2.1 四个方程的定义

1. 输出层误差的方程， $δ^{l}$ ，每个元素定义如下：

2. 使用下一层的误差 $δ^{l + 1}$ 来表示当前层的误差 $δ^{l}$ ：

3. 代价函数关于网络中任意偏置的变化率：

4. 代价函数关于任何一个权重的变化率：

2.2 四个方程的证明

3.总结

相关文章

神经网络（二）——深入理解反向传播的四个基本方程

1.预备知识

2. 反向传播的四个基本方程

2.1 四个方程的定义

1. 输出层误差的方程，δlδl，每个元素定义如下：

2. 使用下一层的误差δl+1δl+1来表示当前层的误差δlδl：

3. 代价函数关于网络中任意偏置的变化率：

4. 代价函数关于任何一个权重的变化率：

2.2 四个方程的证明

3.总结

相关文章

1. 输出层误差的方程， $δ^{l}$ ，每个元素定义如下：

2. 使用下一层的误差 $δ^{l + 1}$ 来表示当前层的误差 $δ^{l}$ ：