文件名称:ACKTR:使用Kronecker建立信任区的演员评论家
文件大小:74KB
文件格式:ZIP
更新时间:2024-05-28 18:50:41
reinforcement-learning actor-critic-methods natural-gradients Python
ACKTR TensorFlow中ACKTR的实现。 ACKTR是当前的SOTA策略渐变方法之一。 Openai在提供了ACKTR的代码。 但是, acktr/kfac.py很难遵循。 因此,我基于和制作了 。 优点 使用tf.contrib.kfac更容易遵循和编写。 (我从tf.contrib.kfac复制ops/*并对其进行了一些修改,您可以切换回tf.contrib.kfac) 支持环境中每个正在运行的代理的Tensorboard可视化。 以更简单的方式支持不同的策略网络。 轻松支持OpenAI体育馆以外的环境。 使用克罗内克因素信任区域(ACKTR)的演员评论家 在中引入了使用Kronecker-Factored Trust Region的Actor Critic。 它使用了一种新近提出的技术,称为 (一种非常强大的优化器),用于演员批判方法。 它显示出样品效率提高了2到
【文件预览】:
ACKTR-master
----.gitignore(1KB)
----README.md(4KB)
----utils()
--------variables_saver.py(1KB)
--------utils.py(3KB)
--------lr_decay.py(650B)
----logger.py(12KB)
----train.py(12KB)
----LICENSE(1KB)
----models()
--------cnn_policy.py(4KB)
--------base_policy.py(502B)
--------model.py(5KB)
----main.py(1KB)
----ops()
--------optimizer.py(19KB)
--------op_queue.py(2KB)
--------loss_functions.py(26KB)
--------fisher_factors.py(41KB)
--------utils.py(11KB)
--------fisher_blocks.py(36KB)
--------estimator.py(12KB)
--------layer_collection.py(29KB)
--------curvature_matrix_vector_products.py(8KB)
----config()
--------breakout_config.json(456B)
----base_train.py(3KB)
----ACKTR.py(5KB)
----layers.py(5KB)
----envs()
--------env_summary_logger.py(2KB)
--------subproc_vec_env.py(3KB)
--------gym_env.py(1KB)
--------atari_wrappers.py(6KB)
--------base_env.py(913B)
--------monitor.py(2KB)