深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

在上一篇中，我们学习了Momentum优化算法，这一篇我们学习什么是Nesterov accelerated gradient (NAG)。

Momentum优化算法的核心就是考虑了历史梯度，根据当前的梯度值和历史梯度值合并后在进行梯度下降。

Momentum在遇到局部最优解时，虽然当前时刻的梯度为0，但是由于历史梯度的存在，相当于存在一个惯性，仍然能够冲出局部最优解。

NAG比Momentum聪明，它是按照历史梯度往前走那么一小步，按照前面一小步位置的“超前梯度”来做梯度合并，给大家画个图解释下：

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

A为小球历史梯度的方向，B为小球根据历史梯度走一步后的梯度方向，两个梯度方向叠加后梯度方向向下，说明可以继续向下走。

Momentum公式：深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

NAG公式推导：

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

这个图是我截的一为大佬的公式推到图，现在来解释下。

其实NAG也是运用了指数加权平均，和Momentum公式的不同就是划黄色圈圈的地方不一样。深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

小括号里面的深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG) 代表的意思为根据历史梯度向前走一步，代表的意思为求那一点的梯度。

这样的话就考虑了历史梯度和未来梯度，这就是NAG。

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

如果您是深度学习、机器学习、人工智能爱好者，欢迎加入QQ群：1147776174，一块进步。

微信公众号：人工智能Corner，原创课程、学习资料都在这，欢迎投稿交流。

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

秒客网