文件名称:RAdam:自适应学习率的方差及超越
文件大小:650KB
文件格式:ZIP
更新时间:2024-04-25 21:18:43
optimizer adam warmup adam-optimizer Python
拉丹 自适应学习率的方差及超越 我们处于早期版本的Beta中。 期待一些冒险和艰难的边缘。 目录 介绍 如果热身是答案,那么问题是什么? Adam的学习速度预热是在某些情况下(或eps调整)进行稳定训练的必备技巧。 但是基本机制尚不清楚。 在我们的研究中,我们提出一个根本原因是自适应学习率的巨大差异,并提供理论和经验支持证据。 除了解释为什么要使用预热之外,我们还提出RAdam ,这是Adam的理论上合理的变体。 动机 如图1所示,我们假定梯度遵循正态分布(均值:\ mu,方差:1)。 模拟了自适应学习率的方差,并将其绘制在图1中(蓝色曲线)。 我们观察到,在训练的早期阶段,自适应学习率具有很大的差异。 将变压器用于NMT时,通常需要进行预热阶段以避免收敛问题(例如,图2中的Adam-vanilla收敛于500 PPL左右,而Adam-warmup成功收敛于10 PPL以下)。 在进
【文件预览】:
RAdam-master
----.travis.yml(120B)
----img()
--------variance.png(226KB)
----LICENSE(11KB)
----radam()
--------radam.py(10KB)
--------__init__.py(44B)
----nmt()
--------my_module()
--------recipes.md(4KB)
--------README.md(244B)
--------average_checkpoints.py(5KB)
--------eval.sh(841B)
----setup.py(857B)
----.gitignore(4KB)
----README.md(11KB)
----language-model()
--------pre_word_ada()
--------recipes.md(901B)
--------eval_1bw.py(4KB)
--------README.md(305B)
--------train_1bw.py(8KB)
--------model_word_ada()
----cifar_imagenet()
--------models()
--------cifar.py(15KB)
--------LICENSE(1KB)
--------imagenet.py(14KB)
--------recipes.md(7KB)
--------.gitignore(20B)
--------fourstep.sh(874B)
--------README.md(331B)
--------utils()