常用的优化器及其优缺点

时间:2024-03-15 09:12:32

1. SGD

在这里SGD和mini-batch是同一个意思,抽取m个小批量(独立同分布)样本,通过计算他们的平均梯度均值。

常用的优化器及其优缺点

缺点:

(1) leraning rate 选择太小,收敛速度会很慢,如果太大,则loss function会在极小值附近不停的震荡,甚至片偏离。

(2) 容易被困在鞍点。

 

2. Momentum(动量)

常用的优化器及其优缺点

要是当前时刻的梯度与历史时刻梯度方向相似,这种趋势在当前时刻则会加强;要是不同,则当前时刻的梯度方式减弱。

 

3. AdaGrad

常用的优化器及其优缺点

设置全局学习率之后,每次通过,全局学习率逐参数的除以历史梯度平方和的平方根,使得每个参数的学习率不同。

优点:学习率可以自适应的减小。

缺点:学习率过早、过量的减少。

 

4. RMSProp

鉴于神经网络都是非凸条件下的,RMSProp在非凸条件下结果更好,改变梯度累积为指数衰减的移动平均以丢弃遥远的过去历史。

相比于AdaGrad的历史梯度: 

                                                                                                    常用的优化器及其优缺点

RMSProp增加了一个衰减系数来控制历史信息的获取多少: 

                                                                                               常用的优化器及其优缺点

常用的优化器及其优缺点

5. Adam

Adam算法可以看作修正后的Momentum+ RMSProp算法, 学习率通常建议为0.001.

常用的优化器及其优缺点