1、梯度和随机梯度
(1)随机梯度运行速度更快,收敛更快,但是对参数更敏感。
(2)为什么随机梯度下降会起作用?
随机梯度下降每次只选一个数据点计算梯度,并修改w。其实就是相当于,很多歌小步累积成大步。
(3)收敛
梯度下降比较平滑,随机梯度下降有更多噪声
(4)随机梯度应用场景:先将数据随机化
(5)步长的选择
步长太小,随机梯度很难收敛;步长太大,随机梯度震荡;
2、随机梯度和梯度下降的折中:mini-batch梯度下降
(1)mini-batch梯度下降:减少噪声,增强稳定性
(2)整体代价
随机梯度的话:
3、在线学习
随机梯度可以用在:在线学习上。
立即更新参数的优缺点:
优点:模型实时更新,更精确;计算消耗更低;不需要存储大量数据;
缺点:模型更复杂;
大部分公司的实时更新都是:每天保存数据,在凌晨更新
3、测试
最后一个迭代获得的参数一般不一定最优
1的步长最优
随机梯度的速度最快,相同时间内,随机梯度比其他梯度得到的效果要更好