RAdam:自适应学习率的方差及超越下载

【文件属性】：

文件名称：RAdam:自适应学习率的方差及超越

文件大小：650KB

文件格式：ZIP

更新时间：2024-04-25 21:18:43

optimizer adam warmup adam-optimizer Python

拉丹自适应学习率的方差及超越我们处于早期版本的Beta中。期待一些冒险和艰难的边缘。目录介绍如果热身是答案，那么问题是什么？ Adam的学习速度预热是在某些情况下（或eps调整）进行稳定训练的必备技巧。但是基本机制尚不清楚。在我们的研究中，我们提出一个根本原因是自适应学习率的巨大差异，并提供理论和经验支持证据。除了解释为什么要使用预热之外，我们还提出RAdam ，这是Adam的理论上合理的变体。动机如图1所示，我们假定梯度遵循正态分布（均值：\ mu，方差：1）。模拟了自适应学习率的方差，并将其绘制在图1中（蓝色曲线）。我们观察到，在训练的早期阶段，自适应学习率具有很大的差异。将变压器用于NMT时，通常需要进行预热阶段以避免收敛问题（例如，图2中的Adam-vanilla收敛于500 PPL左右，而Adam-warmup成功收敛于10 PPL以下）。在进

立即下载

【文件预览】：
RAdam-master
----.travis.yml(120B)
----img()
--------variance.png(226KB)
----LICENSE(11KB)
----radam()
--------radam.py(10KB)
--------__init__.py(44B)
----nmt()
--------my_module()
--------recipes.md(4KB)
--------README.md(244B)
--------average_checkpoints.py(5KB)
--------eval.sh(841B)
----setup.py(857B)
----.gitignore(4KB)
----README.md(11KB)
----language-model()
--------pre_word_ada()
--------recipes.md(901B)
--------eval_1bw.py(4KB)
--------README.md(305B)
--------train_1bw.py(8KB)
--------model_word_ada()
----cifar_imagenet()
--------models()
--------cifar.py(15KB)
--------LICENSE(1KB)
--------imagenet.py(14KB)
--------recipes.md(7KB)
--------.gitignore(20B)
--------fourstep.sh(874B)
--------README.md(331B)
--------utils()

秒客网

RAdam:自适应学习率的方差及超越

网友评论

相关文章