误差反向传播(BP)是神经网络中一个比较经典的训练算法,在上世纪80年代由Rumelhart和Hinton提出。
关于BP算法的推导
BP算法的推导并不是很复杂(可以参考一些文献,例如UFLDL教程),主要抓住以下两个要点即可理解:
- 梯度下降算法
- 求导链式法则
BP主要是通过梯度下降的方式进行权值更新的,所以需要计算目标函数的梯度。而函数求导的链式法则保证了误差能够逐层反向传播。
BP中最重要的概念是局部误差(有些文献中称为灵敏度),其定义为当前层激活值的导数与后一层局部误差反向传播到该层的值之积。
下面引入公式进行描述。
假设第
用希腊字母
上式体现了BP算法的精髓。
误差反向传播算法中反向传播的是什么?是局部误差。局部误差与我们通常意义上所指的误差不同。通常意义上的误差一般在输出层,基于一定的准则构造一个误差函数,例如,均方误差函数,交叉熵误差函数等等。而局部误差的定义与这些误差函数的定义不同。
最后重申一次,在BP中反向传播的是局部误差,而不是输出层定义的误差。不过这二者确实有一些联系。即:在输出层,其局部误差就是误差函数定义的误差与该层激活函数导数值的乘积。