从SGD到NadaMax,十种优化算法原理及实现 - 知乎1

时间:2022-08-03 23:13:49
【文件属性】:

文件名称:从SGD到NadaMax,十种优化算法原理及实现 - 知乎1

文件大小:1.79MB

文件格式:PDF

更新时间:2022-08-03 23:13:49

常规的随机梯度下降公式如下:其中是学习率,是损失关于参数的梯度(有的资料中会写成等形式),不过相SGD,的更多的还是批量梯度下降(mBGD)算法,不


网友评论