【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习

时间:2023-02-09 09:50:51

1、梯度和随机梯度

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习

(1)随机梯度运行速度更快,收敛更快,但是对参数更敏感。


(2)为什么随机梯度下降会起作用?

随机梯度下降每次只选一个数据点计算梯度,并修改w。其实就是相当于,很多歌小步累积成大步。


(3)收敛

梯度下降比较平滑,随机梯度下降有更多噪声

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


(4)随机梯度应用场景:先将数据随机化


(5)步长的选择

步长太小,随机梯度很难收敛;步长太大,随机梯度震荡;

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


2、随机梯度和梯度下降的折中:mini-batch梯度下降

(1)mini-batch梯度下降:减少噪声,增强稳定性

(2)整体代价

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习

随机梯度的话:

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


3、在线学习

随机梯度可以用在:在线学习上。

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


立即更新参数的优缺点:

优点:模型实时更新,更精确;计算消耗更低;不需要存储大量数据;

缺点:模型更复杂;


大部分公司的实时更新都是:每天保存数据,在凌晨更新


3、测试

最后一个迭代获得的参数一般不一定最优

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


1的步长最优

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习


随机梯度的速度最快,相同时间内,随机梯度比其他梯度得到的效果要更好

【机器学习课程-华盛顿大学】:3 分类 3.7 大数据集缩放以及在线学习