一个典型的SGD过程中,一个batch内的一批样本的平均梯度与梯度方差,在下图中得到了展示。
无论什么样的网络结构,无论是哪一层网络的梯度,大体上都遵循下面这样的规律:
高信号/噪音比一段时间之后,信号/噪音比逐渐降低,收敛速度减缓,梯度的方差增大,梯度均值减小。
噪音增加的作用及其必要性会在另一篇文章中阐述,这里仅讨论噪音的产生对于模型收敛速度能够产生怎样的影响。
首先定义模型收敛速度:
\[\frac{\partial {{\mathbf{W}}^{\left( k \right)}}}{\partial t}=-\operatorname{E}[\![\nabla {{\mathbf{W}}^{\left( k \right)}}]\!]+\beta _{\left( k \right)}^{-1}\xi \left( t \right)\]