ACKTR:使用Kronecker建立信任区的演员评论家下载

【文件属性】：

文件名称：ACKTR:使用Kronecker建立信任区的演员评论家

文件大小：74KB

文件格式：ZIP

更新时间：2024-05-28 18:50:41

reinforcement-learning actor-critic-methods natural-gradients Python

ACKTR TensorFlow中ACKTR的实现。 ACKTR是当前的SOTA策略渐变方法之一。 Openai在提供了ACKTR的代码。但是， acktr/kfac.py很难遵循。因此，我基于和制作了。优点使用tf.contrib.kfac更容易遵循和编写。（我从tf.contrib.kfac复制ops/*并对其进行了一些修改，您可以切换回tf.contrib.kfac）支持环境中每个正在运行的代理的Tensorboard可视化。以更简单的方式支持不同的策略网络。轻松支持OpenAI体育馆以外的环境。使用克罗内克因素信任区域（ACKTR）的演员评论家在中引入了使用Kronecker-Factored Trust Region的Actor Critic。它使用了一种新近提出的技术，称为（一种非常强大的优化器），用于演员批判方法。它显示出样品效率提高了2到

立即下载

【文件预览】：
ACKTR-master
----.gitignore(1KB)
----README.md(4KB)
----utils()
--------variables_saver.py(1KB)
--------utils.py(3KB)
--------lr_decay.py(650B)
----logger.py(12KB)
----train.py(12KB)
----LICENSE(1KB)
----models()
--------cnn_policy.py(4KB)
--------base_policy.py(502B)
--------model.py(5KB)
----main.py(1KB)
----ops()
--------optimizer.py(19KB)
--------op_queue.py(2KB)
--------loss_functions.py(26KB)
--------fisher_factors.py(41KB)
--------utils.py(11KB)
--------fisher_blocks.py(36KB)
--------estimator.py(12KB)
--------layer_collection.py(29KB)
--------curvature_matrix_vector_products.py(8KB)
----config()
--------breakout_config.json(456B)
----base_train.py(3KB)
----ACKTR.py(5KB)
----layers.py(5KB)
----envs()
--------env_summary_logger.py(2KB)
--------subproc_vec_env.py(3KB)
--------gym_env.py(1KB)
--------atari_wrappers.py(6KB)
--------base_env.py(913B)
--------monitor.py(2KB)

秒客网

ACKTR:使用Kronecker建立信任区的演员评论家

网友评论

相关文章