BN层介绍

BN，全称Batch Normalization,是2015年提出的一种方法，在进行深度网络训练时，大都会采取这种算法。

原文链接：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

BN层和卷积层，池化层一样都是一个网络层，被广泛应用于深度学习的各个地方，由于在学习过程中需要修改网络，修改的网络在训练过程中无法收敛，就添加了BN层进去来替换掉LRN层，网络可以收敛。
神经网络中BN层的原理与作用

众所周知，深度网络中的数据维度一般是[N, C, H, W]或者[N, H, W，C]格式，N是batch size，H/W是feature的高/宽，C是feature的channel，压缩H/W至一个维度，其三维的表示如上图，假设单个方格的长度是1，那么其表示的是[6, 6，*, * ]。

BN对batch size有依赖，当batch size较大时，有不错的效果。不过BN不适用于RNN等动态网络以及batchsize较小的时候，而LN（Layer Normalization）可以。

BN在batch的维度上norm，归一化维度为[N，H，W]，对batch中对应的channel归一化。

BN层的实现

神经网络中BN层的原理与作用
从论文中给出的伪代码可以看出来BN层的计算流程是：

1.计算样本均值。

2.计算样本方差。

3.样本数据标准化处理。

4.进行平移和缩放处理。引入了γ和β两个参数。来训练γ和β两个参数。引入了这个可学习重构参数γ、β，让我们的网络可以学习恢复出原始网络所要学习的特征分布。
BN就是对不同样本的同一特征做归一化。

BN层的作用

BN层的作用主要有三个：
1.加快网络的训练和收敛的速度；
2.控制梯度爆炸防止梯度消失；
3.防止过拟合。
接下来就分析一下为什么BN层有着三个作用。

加快网络的训练和收敛的速度

在深度神经网络中中，如果每层的数据分布都不一样的话，将会导致网络非常难收敛和训练，而如果把每层的数据都在转换在均值为零，方差为1 的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。

控制梯度爆炸防止梯度消失

梯度消失：在深度神经网络中，如果网络的**输出很大，其对应的梯度就会很小，导致网络的学习速率就会很慢，假设网络中每层的学习梯度都小于最大值0.25，网络中有n层，因为链式求导的原因，第一层的梯度将会小于0.25的n次方，所以学习速率相对来说会变的很慢，而对于网络的最后一层只需要对自身求导一次，梯度就大，学习速率就会比较快，这就会造成在一个很深的网络中，浅层基本不学习，权值变化小，而后面几层网络一直学习，后面的网络基本可以表征整个网络，这样失去了深度的意义。（使用BN层归一化后，网络的输出就不会很大，梯度就不会很小）

梯度爆炸：第一层偏移量的梯度=**层斜率1x权值1x**层斜率2x…**层斜率(n-1)x权值(n-1)x**层斜率n，假如**层斜率均为最大值0.25，所有层的权值为100，这样梯度就会指数增加。（使用bn层后权值的更新也不会很大

防止过拟合

在网络的训练中，BN的使用使得一个minibatch中所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果，即同样一个样本的输出不再仅仅取决于样本的本身，也取决于跟这个样本同属一个batch的其他样本，而每次网络都是随机取batch，这样就会使得整个网络不会朝这一个方向使劲学习。一定程度上避免了过拟合。

为什么BN层一般用在线性层和卷积层后面，而不是放在非线性单元后

原文中是这样解释的，因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移，相反的，全连接和卷积层的输出一般是一个对称,非稀疏的一个分布，更加类似高斯分布，对他们进行归一化会产生更加稳定的分布。其实想想也是的，像relu这样的**函数，如果你输入的数据是一个高斯分布，经过他变换出来的数据能是一个什么形状？小于0的被抑制了，也就是分布小于0的部分直接变成0了，这样不是很高斯了。

参考文献：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

秒客网

神经网络中BN层的原理与作用