trpo：使用TensorFlow和OpenAI Gym优化信任区域策略下载

【文件属性】：

文件名称：trpo：使用TensorFlow和OpenAI Gym优化信任区域策略

文件大小：637KB

文件格式：ZIP

更新时间：2024-02-27 02:37:44

machine-learning reinforcement-learning tensorflow policy-gradient mujoco

广义优势估计的信任域策略优化帕特里克·科迪（Patrick Coady）：概要注意：代码已重构为使用TensorFlow 2.0和PyBullet（而不是MuJoCo）。请参阅tf1_mujoco分支以获取旧版本。该项目的最初目标是使用相同的算法来“解决” 。并且，具体地说，要在不手动调整每个环境的超参数（网络大小，学习速率和TRPO设置）的情况下实现此目的。这是具有挑战性的，因为环境的范围从具有单个控制输入的简单手推车杆问题到具有17个受控关节和44个观察变量的类人动物。该项目成功完成，几乎在所有AI Gym MuJoCo排行榜上都位居榜首。随着TensorFlow 2

立即下载

【文件预览】：
trpo-master
----notebooks()
--------plotting.py(1KB)
--------env_dimension_sizes.ipynb(4KB)
----LICENSE(1KB)
----setup.py(629B)
----README.md(4KB)
----.gitignore(201B)
----trpo()
--------archive.py(9KB)
--------train.py(13KB)
--------value.py(3KB)
--------utils.py(4KB)
--------policy.py(8KB)
--------plotting.py(1KB)
--------view_training.ipynb(831KB)

秒客网

trpo：使用TensorFlow和OpenAI Gym优化信任区域策略

网友评论

相关文章