在上一篇中,我们学习了Momentum优化算法,这一篇我们学习什么是Nesterov accelerated gradient (NAG)。
Momentum优化算法的核心就是考虑了历史梯度,根据当前的梯度值和历史梯度值合并后在进行梯度下降。
如果不了解Momentum,传送门:深度学习优化算法——彻底搞懂Momentum
Momentum在遇到局部最优解时,虽然当前时刻的梯度为0,但是由于历史梯度的存在,相当于存在一个惯性,仍然能够冲出局部最优解。
NAG比Momentum聪明,它是按照历史梯度往前走那么一小步,按照前面一小步位置的“超前梯度”来做梯度合并,给大家画个图解释下:
A为小球历史梯度的方向,B为小球根据历史梯度走一步后的梯度方向,两个梯度方向叠加后梯度方向向下,说明可以继续向下走。
Momentum公式:
NAG公式推导:
这个图是我截的一为大佬的公式推到图,现在来解释下。
其实NAG也是运用了指数加权平均,和Momentum公式的不同就是划黄色圈圈的地方不一样。
小括号里面的代表的意思为根据历史梯度向前走一步,代表的意思为求那一点的梯度。
这样的话就考虑了历史梯度和未来梯度,这就是NAG。
如果您是深度学习、机器学习、人工智能爱好者,欢迎加入QQ群:1147776174,一块进步。
微信公众号:人工智能Corner,原创课程、学习资料都在这,欢迎投稿交流。