trpo:使用TensorFlow和OpenAI Gym优化信任区域策略

时间:2021-02-06 08:51:04
【文件属性】:
文件名称:trpo:使用TensorFlow和OpenAI Gym优化信任区域策略
文件大小:637KB
文件格式:ZIP
更新时间:2021-02-06 08:51:04
machine-learning reinforcement-learning tensorflow policy-gradient mujoco 广义优势估计的信任域策略优化 帕特里克·科迪(Patrick Coady): 概要 注意:代码已重构为使用TensorFlow 2.0和PyBullet(而不是MuJoCo)。 请参阅tf1_mujoco分支以获取旧版本。 该项目的最初目标是使用相同的算法来“解决” 。 并且,具体地说,要在不手动调整每个环境的超参数(网络大小,学习速率和TRPO设置)的情况下实现此目的。 这是具有挑战性的,因为环境的范围从具有单个控制输入的简单手推车杆问题到具有17个受控关节和44个观察变量的类人动物。 该项目成功完成,几乎在所有AI Gym MuJoCo排行榜上都位居榜首。 随着TensorFlow 2
【文件预览】:
trpo-master
----notebooks()
--------plotting.py(1KB)
--------env_dimension_sizes.ipynb(4KB)
----LICENSE(1KB)
----setup.py(629B)
----README.md(4KB)
----.gitignore(201B)
----trpo()
--------archive.py(9KB)
--------train.py(13KB)
--------value.py(3KB)
--------utils.py(4KB)
--------policy.py(8KB)
--------plotting.py(1KB)
--------view_training.ipynb(831KB)

网友评论