（Stochastic gradient descent）和（Batch gradient descent ）的对比

BATCH:
但是每迭代一步，都要用到训练集所有的数据
Stochastic:
随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。
对比：
（1）批量梯度下降—最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数使得风险函数最小。

（2）随机梯度下降—最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

对于上面的linear regression问题，最优化问题对theta的分布是unimodal，即从图形上面看只有一个peak，所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题，因为存在多个peak值，很有可能梯度下降的最终结果是局部最优。

秒客网

（Stochastic gradient descent）和（Batch gradient descent ）的对比

相关文章

（Stochastic gradient descent）和 （Batch gradient descent ）的对比

相关文章

（Stochastic gradient descent）和（Batch gradient descent ）的对比