随机梯度下降法（Stochastic gradient descent, SGD）

BGD(Batch gradient descent)批量梯度下降法：每次迭代使用所有的样本（样本量小) Mold 一直在更新

SGD（Stochastic gradientdescent）随机梯度下降法：每次迭代使用一组样本（样本量大）Mold 把一批数据过完才更新一次

针对BGD算法训练速度过慢的缺点，提出了SGD算法，普通的BGD算法是每次迭代把所有样本都过一遍，每训练一组样本就把梯度更新一次。而SGD算法是从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
随机梯度下降法（Stochastic gradient descent, SGD）

一次性更新，这个Mold一直用的是老m

每一条数据计算梯度的时候，都用的是老old

秒客网

随机梯度下降法（Stochastic gradient descent, SGD）

相关文章