BP神经网络(输出层采用Softmax**函数、交叉熵损失函数)公式推导

本篇博客主要介绍经典的三层BP神经网络的基本结构及反向传播算法的公式推导。

我们首先假设有四类样本，每个样本有三类特征，并且我们在输出层与隐藏层加上一个偏置单元。这样的话，我们可以得到以下经典的三层BP网络结构：

当我们构建BP神经网络的时候，一般是有两个步骤，第一是正向传播(也叫做前向传播)，第二是反向传播(也就是误差的反向传播)。

Step1 正向传播
在正向传播之前，可以先给W，b赋初始值，最好不要全设置为0，不然后面会出现问题。赋完初值后，下面开始正向传播：

$n e t_{h_{1}} = W_{11} * i_{1} + W_{12} * i_{2} + W_{13} * i_{3} + b_{1}$
$O u t_{h_{1}} = \frac{1}{1 + e^{- n e t_{h_{1}}}}$ ——>**函数为sigmoid函数： $y = \frac{1}{1 + e^{- x}}$

隐含层到输出层：
$n e t_{O_{1}} = W_{11}^{^{'}} * h_{1} + W_{12}^{^{'}} * h_{2} + W_{13}^{^{'}} * h_{3} + W_{14}^{^{'}} * h_{4} + b_{1}^{^{'}} = \sum_{j = 1}^{4} W_{1 j}^{^{'}} * O u t_{h_{j}} + b_{1}^{^{'}}$
$O u t_{O 1} = \frac{e^{n e t_{O 1}}}{e^{n e t_{O 1}} + e^{n e t_{O 2}} + e^{n e t_{O 3}} + e^{n e t_{O 4}}}$ ——>**函数为Softmax型、常用于多分类问题

到这里我们已经完成了正向传播，这里我之所以没给出向量的形式，是因为我觉得标量的形式容易理解。下面我们开始反向传播。

Step2 反向传播
1.计算总误差
这里我们采用交叉熵损失函数，我看到网上大部分都是采用均方误差形式的损失函数，使用交叉熵的相对较少，且使用交叉熵损失函数具有较多优点。

$E_{t o t a l} = - \sum_{i = 1}^{4} t a r g e t_{O_{i}} * l n O u t_{O_{i}}$
这里其实只有一项，因为 $t a r g e t_{O_{i}}$ 无论在何时都只有一项为1，也就是说，要么第一类，此时 $E_{t o t a l} = - t a r g e t_{O_{1}} * l n O u t_{O_{1}}$ . 要么第二类，此时 $E_{t o t a l} = - t a r g e t_{O_{2}} * l n O u t_{O_{2}}$ ，要么是第三类，第四类等情况。

2.隐含层到输出层的权值更新
以 $W_{11}^{^{'}}$ 为例，我们想知道 $W_{11}^{^{'}}$ 对整体误差产生了多少影响，可用整体误差对 $W_{11}^{^{'}}$ 求偏导得出。
$\frac{\partial E_{t o t a l}}{\partial W_{11}^{^{'}}} = \frac{\partial E_{t o t a l}}{\partial O u t_{O_{1}}} * \frac{\partial O u t_{O_{1}}}{\partial n e t_{O_{1}}} * \frac{\partial n e t_{O_{1}}}{\partial W_{11}^{^{'}}}$

下面我们依次来计算每个式子(不要着急，一步一步算)：
$\frac{\partial E_{t o t a l}}{\partial O u t_{O_{1}}} = - t a r g e t_{O_{1}} * \frac{1}{O u t_{O_{1}}}$
$\frac{\partial O u t_{O_{1}}}{\partial n e t_{O_{1}}} = O u t_{O_{1}} * (1 - O u t_{O_{1}})$
$\frac{\partial n e t_{O_{1}}}{\partial n e t_{W_{11}^{^{'}}}} = O u t_{h_{1}}$
然后将三者相乘，就可以了嘛？？
答案是否定的，之前我也是这么推导的，结果在迭代时发现，权值一直在增大，后来经过很长时间的分析才发现，原来这里的 $\frac{\partial E_{t o t a l}}{\partial W_{11}^{^{'}}}$ 我求错了。

问题出在哪里呢？

是因为采用了交叉熵的损失函数，在更新 $W_{11}^{^{'}}$ 时，误差不仅仅来自于 $O_{1}$ ,还与其他所有的输出层的节点有关系。咋一看非常不可思议，但是仔细一想，你会发现因为在计算 $O u t_{O_{i}}$ 是，分母中e的指数涉及到了其他所有的神经元的输出，即 $n e t_{O_{2}}$ 、 $n e t_{O_{3}}$ 等。
所以，我们对 $W_{11}^{^{'}}$ 的偏导就应该是：
$\frac{\partial E_{t o t a l}}{\partial W_{11}^{^{'}}} = \frac{\partial E_{t o t a l}}{\partial O u t_{O_{1}}} * \frac{\partial O u t_{O_{1}}}{\partial n e t_{O_{1}}} * \frac{\partial n e t_{O_{1}}}{\partial W_{11}^{^{'}}} + \frac{\partial E_{t o t a l}}{\partial O u t_{O_{2}}} * \frac{\partial O u t_{O_{2}}}{\partial n e t_{O_{1}}} * \frac{\partial n e t_{O_{1}}}{\partial W_{11}^{^{'}}} + \frac{\partial E_{t o t a l}}{\partial O u t_{O_{3}}} * \frac{\partial O u t_{O_{3}}}{\partial n e t_{O_{1}}} * \frac{\partial n e t_{O_{1}}}{\partial W_{11}^{^{'}}} + \frac{\partial E_{t o t a l}}{\partial O u t_{O_{4}}} * \frac{\partial O u t_{O_{4}}}{\partial n e t_{O_{1}}} * \frac{\partial n e t_{O_{1}}}{\partial W_{11}^{^{'}}}$

因为我这里有四类，所以显得式子很长，但是经过化简，可以得到以下式子：

$\frac{\partial E_{t o t a l}}{\partial W_{11}^{^{'}}} = (O u t_{O_{1}} - t a r g e t_{O_{1}}) * O u t_{h_{1}}$

我们可以令 $O u t_{O_{1}} - t a r g e t_{O_{1}}$ 为 $δ_{O_{1}}$ ,意思是在该神经元输出点的误差值，那么我们就可以很容易的得到权值的更新公式：
$W_{11}^{^{'}} = W_{11}^{^{'}} - η δ_{O_{1}} O u t_{h 1}$

同理，我们可以得到偏置的更新公式：
$b_{1}^{^{'}} = b_{1}^{^{'}} - η δ_{O_{1}}$

其中， $η$ 表示学习率，这是一个可以自己调节的变量，看自己的数据分布情况，可设为0.1、0.05等等。

从输入层到隐含层的权值更新：
$\frac{\partial E_{t o t a l}}{\partial W_{11}} = \frac{\partial E_{t o t a l}}{\partial O u t_{h_{1}}} * \frac{\partial O u t_{h_{1}}}{\partial n e t_{h_{1}}} * \frac{\partial n e t_{h_{1}}}{\partial W_{11}}$

其中， $\frac{\partial E_{t o t a l}}{\partial O u t_{h_{1}}} = \frac{\partial E_{O_{1}}}{\partial O u t_{h_{1}}} + \frac{\partial E_{O_{2}}}{\partial O u t_{h_{1}}} + \frac{\partial E_{O_{3}}}{\partial O u t_{h_{1}}} + \frac{\partial E_{O_{4}}}{\partial O u t_{h_{1}}}$ 是因为输出层的每一个神经元都对隐藏层的第一个神经元有误差的传递。

由此我们可以得到：
$\frac{\partial E_{t o t a l}}{\partial W_{11}} = (δ_{O_{1}} * W_{11}^{^{'}} + δ_{O_{2}} * W_{12}^{^{'}} + δ_{O_{3}} * W_{13}^{^{'}} + δ_{O_{4}} * W_{14}^{^{'}}) * O u t_{h_{1}} * (1 - O u t_{h_{1}}) * i_{1}$
我们将
$(δ_{O_{1}} * W_{11}^{^{'}} + δ_{O_{2}} * W_{12}^{^{'}} + δ_{O_{3}} * W_{13}^{^{'}} + δ_{O_{4}} * W_{14}^{^{'}}) * O u t_{h_{1}} * (1 - O u t_{h_{1}})$
记作 $δ_{h_{1}}$

那么，我们的输入层到隐含层的权值及偏置的更新策略为：
$W_{11} = W_{11} - η δ_{h_{1}} i_{1}$

$b_{1} = b_{1} - η δ_{h_{1}}$

至此，我们已经将两层之间的权值和偏置都更新完了，可以根据以上写成向量或者矩阵的形式，方便后面的运算。

最后，我想说，虽然现在很多机器学习的框架用的如火如荼，但是我觉得对于刚入门的同学来说，一些基本的公式推导和证明还是要掌握的。如有错误，欢迎交流和指正。

秒客网

BP神经网络(输出层采用Softmax**函数、交叉熵损失函数)公式推导

本篇博客主要介绍经典的三层BP神经网络的基本结构及反向传播算法的公式推导。

问题出在哪里呢？

相关文章