摘要：

关于BP算法（误差反向传播）网上的学习、参考资料已经有很多了。每篇文章都差不多，都是在阐述BP的数学原理或者实践。本篇文章其实也和网上大部分文章一样，但从一个初学者的角度来分享学习这个算法的过程的一些体会。

预先定义：

网上许多资料都是以单层的神经网络为例推导BP算法，本文用一个两个隐藏层的神经网络为例推导BP算法。（其实结果是一样的）。网络结构如下图：
BP算法心得体会
接着，我们定义一下一些参数。（请不要跳过这个环节）
假设输入层的每一个输入表示为 $x_{m}$ , $m = 1, 2... N_{i n p u t}$
假设输入层第 $m$ 个输入与第一个隐藏层的第 $i$ 个神经元的连接权重为 $u_{i m}$ 。
那么，第一层隐藏层的第 $i$ 神经元输入为 $n e t_{i}$ ， $n e t_{i} = \sum_{m = 1}^{N_{i n p u t}} u_{i m} x_{m}$ 。
因此，经过**函数 $f (x)$ 后，第 $i$ 个神经元的输出为 $y_{i}^{(1)}$
$y_{i}^{(1)} = f (n e t_{i})$
同理可以得到第二个隐藏层：
第二层隐藏层的第j个神经元输入为 $n e t_{j}$ , $n e t_{j} = \sum_{m = 1}^{N_{(1)}} v_{j m} y_{m}^{(1)}$ ，其中 $N_{(1)}$ 是第二层的神经元个数。 $v_{j m}$ 是权重。经过**函数后其值为 $y_{j}^{(2)}$ , $y_{j}^{(2)} = f (n e t_{j})$
最后，可以得到输出层：
$n e t_{k} = \sum_{m = 1}^{N_{(2)}} w_{k m} y_{m}^{(2)}$ ,经过**函数后其值为 $o_{k}$ , $o_{k} = f (n e t_{k})$ 。
另外，假设目前的损失函数为 $E = \frac{1}{2} \sum_{m = 1}^{N_{(o)}} (o_{k} - t_{k})^{2}$ 。（这里的0.5系数是为了方便计算）
这里需要提一下的是，很多文章都是把损失函数定义成均方误差，这个主要是为是好解释BP算法。在后面推导完后就可以发现，其实任意的可导损失函数都可以，本文也会简单的说明。
另外，一些读者可能发现上面在求 $n e t$ 的值时没有写明计算偏置项，其实这不影响我们的公式推导，后面也会做说明（当然，你也可以把公式理解成已经把偏置项包含进去了，此时输入总是1）

推导

BP算法解决的是什么问题？解决的是如何更新网络中的权重值。
一般来说，对于任意一个权重我们都有：
$w^{a f t e r} ： = w^{b e f o r e} + Δ w$ ，第二项其实就是我们熟知的学习率和梯度的乘积。
在这个多层的网络中，需要学习的参数有 $w_{k m}$ ， $v_{j m}$ ， $u_{i m}$ 。
其于目标函数 $E$ 的梯度值分别为：
$\frac{\partial E}{\partial w_{k m}}$ ， $\frac{\partial E}{\partial v_{j m}}$ ， $\frac{\partial E}{\partial u_{i m}}$ 。只要能够求出上面这3个式子，我们就完成了更新权重的任务。所以下面，一个一个求解。
1.先求 $\frac{\partial E}{\partial w_{k m}}$ ：
由链式法则，我们可以得到下式：
$\frac{\partial E}{\partial w_{k m}} = \frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial w_{k m}}$ 。

（这里简单解释一下为什么会想到这一步。回头看我们的一些参数定义，我们可以看到， $w_{k m}$ 和 $n e t_{k}$ 是最直接的函数关系，所以我们选择引入中间变量 $n e t_{k}$ ，另一方面，我们如果把神经元输入作为中间变量引入到链式法则中后面推导得到式子会很整齐，很有规律性）

接着，我们定义一个误差信号：
所谓误差信号即： $δ_{k}^{(o)} = \frac{\partial E}{\partial n e t_{k}}$ ，那么上式就可以写成：
$\frac{\partial E}{\partial w_{k m}} = \frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial w_{k m}} = δ_{k}^{(o)} * \frac{\partial n e t_{k}}{\partial w_{k m}}$ 。
对于 $\frac{\partial n e t_{k}}{\partial w_{k m}}$ 其实很好求解。
因为 $n e t_{k} = \sum_{m = 1}^{N_{(2)}} w_{k m} y_{m}^{(2)}$ ，故 $\frac{\partial n e t_{k}}{\partial w_{k m}} = y_{m}^{(2)}$ （注意，求和式子里只有一个 $w_{k m}$ ）
下面求解 $δ_{k}^{(o)}$ ：
$δ_{k}^{(o)} = \frac{\partial E}{\partial n e t_{k}} = \frac{\partial E}{\partial o_{k}} * \frac{\partial o_{k}}{\partial n e t_{k}}$

(会想到这个是因为和 $n e t_{k}$ 构成最直接的函数关系的是 $o_{k}$ ）

$\frac{\partial o_{k}}{\partial n e t_{k}} = f^{^{'}} (n e t_{k})$
由于 $E = \frac{1}{2} \sum_{m = 1}^{N_{(o)}} (o_{k} - t_{k})^{2}$ ，
故 $\frac{\partial E}{\partial o_{k}} = (o_{k} - t_{k})$ 。
OK，至此解决了 $\frac{\partial E}{\partial w_{k m}}$ 。其值具体为：
$\frac{\partial E}{\partial w_{k m}} = δ_{k}^{(o)} * y_{m}^{(2)}$ ，
其中 $δ_{k}^{(o)} = (o_{k} - t_{k}) * f^{^{'}} (n e t_{k})$

(注意，解释一下为什么我推导到这里就算推导完成，我们推导的目的就是为了让程序能构计算。上式中的任何一个值都是可以通过计算得到的）

2.再求 $\frac{\partial E}{\partial v_{j m}}$ ：
求解的思路其实和上面的差不多，有一点区别，具体看推导过程。
$\frac{\partial E}{\partial v_{j m}} = \frac{\partial E}{\partial n e t_{j}} * \frac{\partial n e t_{j}}{\partial v_{j m}}$

(同样，这里引入 $n e t_{j}$ 的原因和上面 $n e t_{k}$ 是一样的)

同样定义一个误差信号 $δ_{j}^{(2)}$ ， $δ_{j}^{(2)} = \frac{\partial E}{\partial n e t_{j}}$ 。
而 $\frac{\partial n e t_{j}}{\partial v_{j m}} = y_{m}^{(1)}$

（由 $n e t_{j} = \sum_{m = 1}^{N_{(1)}} v_{j m} y_{m}^{(1)}$ 可得）

那么上式就变成了：
$\frac{\partial E}{\partial v_{j m}} = \frac{\partial E}{\partial n e t_{j}} * \frac{\partial n e t_{j}}{\partial v_{j m}} = δ_{j}^{(2)} * y_{m}^{(1)}$

(在这里，我通过和前面的 $\frac{\partial E}{\partial w_{k m}}$ 对比，我们就能够发现，两者的形式非常像，其形式可以基本归纳为误差信号 $δ$ *上一层的某一个输入 $x$ )
那么 $δ_{j}^{(2)}$ 如何求解？和上面类似，我们容易想到再引入一个中间变量。

$δ_{j}^{(2)} = \frac{\partial E}{\partial n e t_{j}} = \frac{\partial E}{\partial y_{j}^{(2)}} * \frac{\partial y_{j}^{(2)}}{\partial n e t_{j}}$ .
容易得到： $\frac{\partial y_{j}^{(2)}}{\partial n e t_{j}} = f^{^{'}} (n e t_{j})$
对于 $\frac{\partial E}{\partial y_{j}^{(2)}}$ 稍微比较复杂，但是也是整个BP最核心的一部分。
我们沿用上面的想法，和 $y_{j}^{(2)}$ 直接构成函数关系的是 $n e t_{k}$ ,自然有：
$\frac{\partial E}{\partial y_{j}^{(2)}} = \frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial y_{j}^{(2)}}$ 。
这个想法是对的，但是结果是错误的。这里其实是没有看到对于 $y_{j}^{(2)}$ ，其不单单只影响了一个 $n e t_{k}$ 。而是影响了整个输出层的 $n e t$ 。可以参考下面这个图。
BP算法心得体会
蓝线所指的神经元输出是 $y_{j}^{(2)}$ ，其红线连接的神经元是受其影响的神经元（这个也是BP算法的思想）
所以 $\frac{\partial E}{\partial y_{j}^{(2)}} = \sum_{k = 1}^{N (o)} (\frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial y_{j}^{(2)}})$ 。
进一步的，我们发现其中包含有一个误差信号，替换可以得到：
$\frac{\partial E}{\partial y_{j}^{(2)}} = \sum_{k = 1}^{N (o)} (\frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial y_{j}^{(2)}}) = \sum_{k = 1}^{N (o)} (δ_{k}^{o} * \frac{\partial n e t_{k}}{\partial y_{j}^{(2)}})$ 。
最后由函数直接关系得到 $\frac{\partial n e t_{k}}{\partial y_{j}^{(2)}} = w_{k j}$ 。
带入所有式子可以有：
$\frac{\partial E}{\partial y_{j}^{(2)}} = \sum_{k = 1}^{N (o)} (δ_{k}^{o} * w_{k j})$
$δ_{j}^{(2)} = \frac{\partial E}{\partial n e t_{j}} = \frac{\partial E}{\partial y_{j}^{(2)}} * \frac{\partial y_{j}^{(2)}}{\partial n e t_{j}} = \sum_{k = 1}^{N (o)} (δ_{k}^{o} * w_{k j}) * f^{^{'}} (n e t_{j})$ 。
上式的任何一个数都可以计算得到。故推导完毕。
即 $\frac{\partial E}{\partial v_{j m}} = δ_{j}^{(2)} * y_{m}^{(1)}$ ，
其中 $δ_{j}^{(2)} = \sum_{k = 1}^{N (o)} (δ_{k}^{o} * w_{k j}) * f^{^{'}} (n e t_{j})$ 。
3.最后求 $\frac{\partial E}{\partial u_{i m}}$ ：

（其实到这里，读者可以自己尝试一下求解）

同样地，沿用上面的思路有：
$\frac{\partial E}{\partial u_{i m}} = \frac{\partial E}{\partial n e t_{i}} * \frac{\partial n e t_{i}}{\partial u_{i m}}$ 。
$\frac{\partial n e t_{i}}{\partial u_{i m}} = x_{m}$
定义误差信号 $δ_{i}^{(1)} = \frac{\partial E}{\partial n e t_{i}}$
故上式也可写为：
$\frac{\partial E}{\partial u_{i m}} = \frac{\partial E}{\partial n e t_{i}} * \frac{\partial n e t_{i}}{\partial u_{i m}} = δ_{i}^{(1)} * x_{m}$ 。（和上面的式子也是类似的）
下面也是求解 $δ_{i}^{(1)}$ 。
$δ_{i}^{(1)} = \frac{\partial E}{\partial n e t_{i}} = \frac{\partial E}{\partial y_{i}^{(1)}} * \frac{\partial y_{i}^{(1)}}{\partial n e t_{i}}$
而 $\frac{\partial y_{i}^{(1)}}{\partial n e t_{i}} = f^{^{'}} (n e t_{i})$
$\frac{\partial E}{\partial y_{i}^{(1)}} = \sum_{j = 1}^{N_{(2)}} (\frac{\partial E}{\partial n e t_{j}} * \frac{\partial n e t_{j}}{\partial y_{i}^{(1)}})$ 。

（这里和前面是类似的。原因参考上面的图）

这里同样存在误差信号，替换后可以得到：
$\frac{\partial E}{\partial y_{i}^{(1)}} = \sum_{j = 1}^{N_{(2)}} (\frac{\partial E}{\partial n e t_{j}} * \frac{\partial n e t_{j}}{\partial y_{i}^{(1)}}) = \sum_{j = 1}^{N_{(2)}} (δ_{j}^{(2)} * \frac{\partial n e t_{j}}{\partial y_{i}^{(1)}})$ 。
且 $\frac{\partial n e t_{j}}{\partial y_{i}^{(1)}} = v_{j i}$ 。
故： $\frac{\partial E}{\partial y_{i}^{(1)}} = \sum_{j = 1}^{N_{(2)}} (δ_{j}^{(2)} * v_{j i})$ 。
最终我们可以得到误差信号：
$δ_{i}^{(1)} = \frac{\partial E}{\partial n e t_{i}} = \frac{\partial E}{\partial y_{i}^{(1)}} * \frac{\partial y_{i}^{(1)}}{\partial n e t_{i}} = \sum_{j = 1}^{N_{(2)}} (δ_{j}^{(2)} * v_{j i}) * f^{^{'}} (n e t_{i})$ 。
因此对于梯度 $\frac{\partial E}{\partial u_{i m}} = δ_{i}^{(1)} * x_{m}$ ，
其中 $δ_{i}^{(1)} = \sum_{j = 1}^{N_{(2)}} (δ_{j}^{(2)} * v_{j i}) * f^{^{'}} (n e t_{i})$ 。

至此，所有的推导工作已经完成了，我们来对比一下我们最后得到这三个式子：
对于输出层：
$\frac{\partial E}{\partial w_{k m}} = δ_{k}^{(o)} * y_{m}^{(2)}$ ，其中 $δ_{k}^{(o)} = (o_{k} - t_{k}) * f^{^{'}} (n e t_{k})$
第二个隐藏层
$\frac{\partial E}{\partial v_{j m}} = δ_{j}^{(2)} * y_{m}^{(1)}$ ，
其中 $δ_{j}^{(2)} = \sum_{k = 1}^{N (o)} (δ_{k}^{o} * w_{k j}) * f^{^{'}} (n e t_{j})$ 。
第一个隐藏层
$\frac{\partial E}{\partial u_{i m}} = δ_{i}^{(1)} * x_{m}$ ，
其中 $δ_{i}^{(1)} = \sum_{j = 1}^{N_{(2)}} (δ_{j}^{(2)} * v_{j i}) * f^{^{'}} (n e t_{i})$ 。
相信，大家看到这三个式子就能够得出自己的结论了。
其实对于求解梯度来说，最为关键的就是求解误差信号，而各层之间的误差信号其实存在稳定的关系

关于损失函数

在上面的推导中，我们一直指定了损失函数 $E = \frac{1}{2} * (o_{k} - t_{k})^{2}$ 。也就说我们采用MSE作为我们的loss function。
如果我们希望使用其他的损失函数，那么BP的推导有哪些部分会发生变化呢？
比如采用softmax作为最后一层的**函数，交叉熵作为loss function，整个推导过程有什么变化的？
具体可以参考： BP算法推导-softmax层+交叉熵(logloss)。文中虽然以RNN为例，但总体的思路是相似的。

关于最后一层的**函数问题

也许有人会困惑，如果最后一层也就是输出层不经过**函数处理，其推导结果会有什么不同呢？
回头看推导过程，其实这个也只会影响输出层的信号误差这一步，具体表现为： $δ_{k}^{(o)} = \frac{\partial E}{\partial o_{k}} * \frac{\partial o_{k}}{\partial n e t_{k}}$ 中的 $\frac{\partial o_{k}}{\partial n e t_{k}}$ 。若 $o_{k} = n e t_{k}$ ，那么其偏导的结果就为1。
故： $δ_{k}^{(o)} = \frac{\partial E}{\partial o_{k}}$

关于偏置项

其实是否显式的写出偏置项不影响公式的推导。在这里，我们可以尝试加上看对我们的结果有何影响。
假设：
$n e t_{k} = \sum_{m = 1}^{N_{(2)}} w_{k m} y_{m}^{(2)} + b_{k}$ ,经过**函数后其值为 $o_{k}$ , $o_{k} = f (n e t_{k})$ 。
那么对于 $\frac{\partial E}{\partial w_{k m}}$ 的求法不变，
下面来看 $\frac{\partial E}{\partial b_{k}}$ ：
$\frac{\partial E}{\partial b_{k}} = \frac{\partial E}{\partial n e t_{k}} * \frac{\partial n e t_{k}}{\partial b_{k}}$
可以看到，对于 $\frac{\partial E}{\partial b_{k}}$ 和 $\frac{\partial E}{\partial w_{k m}}$ 区别仅仅在于第二项 $\frac{\partial n e t_{k}}{\partial b_{k}}$ 。
对于 $\frac{\partial n e t_{k}}{\partial b_{k}}$ ，其值为1
对于 $\frac{\partial E}{\partial w_{k m}}$ ，其值为 $y_{m}^{(2)}$ 。
所以，只要把偏置项目看做是其中一个 $w_{k m}$ ，但其输入恒定为1即可。

秒客网

BP算法心得体会

摘要：

预先定义：

推导

关于损失函数

关于最后一层的**函数问题

关于偏置项

相关文章