oac-explore:随附论文“使用乐观演员评论家进行更好的探索”的代码(NeurIPS 2019)

时间:2024-06-03 06:44:07
【文件属性】:

文件名称:oac-explore:随附论文“使用乐观演员评论家进行更好的探索”的代码(NeurIPS 2019)

文件大小:133KB

文件格式:ZIP

更新时间:2024-06-03 06:44:07

Python

乐观演员评论家 该存储库包含NeurIPS 2019论文``使用乐观演员评论家进行更好的探索''随附的代码。 如果您正在阅读代码以了解Optimistic Actor Critic的工作原理,请查看文件optimistic_exploration.py ,该文件封装了乐观探索的逻辑。 存储库中的其余文件实现了Soft Actor Critic的通用版本。 再现结果 bash脚本reproduce.sh将在环境Humanoid-v2上运行“ Soft Actor Critic”和“ Optimistic Actor Critic”,每个都有5个种子。 建议您在具有足够资源的计算机上执行此脚本。 脚本完成后,要绘制学习曲线,可以运行 python -m plotting.plot_against_baseline 这应该产生下面的图。 乐观派演员评论家需要约600万步,才能获得平均800


【文件预览】:
oac-explore-master
----sac.sh(98B)
----plotting()
--------plot_against_baseline.py(8KB)
--------__init__.py(0B)
----rl_algorithm.py(8KB)
----cgmanifest.json(260B)
----utils()
--------logging.py(11KB)
--------tabulate.py(29KB)
--------pytorch_util.py(3KB)
--------eval_util.py(4KB)
--------__init__.py(0B)
--------pythonplusplus.py(11KB)
--------env_utils.py(5KB)
--------rng.py(996B)
--------core.py(2KB)
----environment()
--------Dockerfile(6KB)
--------requirements.txt(2KB)
--------install_mujoco.py(2KB)
--------environment.yml(252B)
----main.py(7KB)
----replay_buffer.py(4KB)
----reproduce.sh(226B)
----LICENSE(1KB)
----trainer()
--------__init__.py(0B)
--------trainer.py(9KB)
--------policies.py(6KB)
----README.md(4KB)
----oac.sh(127B)
----SECURITY.md(3KB)
----path_collector.py(7KB)
----CODE_OF_CONDUCT.md(453B)
----launcher_util.py(7KB)
----.gitignore(1KB)
----humanoid-v2_formal_fig_True.png(86KB)
----optimistic_exploration.py(2KB)
----networks.py(2KB)

网友评论