capg:使用PPO和TRPO实施限幅措施策略梯度(CAPG)

时间:2024-05-30 22:14:15
【文件属性】:

文件名称:capg:使用PPO和TRPO实施限幅措施策略梯度(CAPG)

文件大小:105KB

文件格式:ZIP

更新时间:2024-05-30 22:14:15

Python

限幅行动政策梯度 该存储库包含使用PPO和TRPO的CAPG( )的实现。 依存关系 Chainer v4.1.0 ChainerRL最新大师 带有MuJoCo envs的OpenAI Gym v0.9.4 使用安装依赖项。 pip install -r requirements.txt 怎么跑 # Run PPO with PG and CAPG for 1M steps python train_ppo_gym.py --env Humanoid-v1 python train_ppo_gym.py --env Humanoid-v1 --use-clipped-gaussian # Run TRPO with PG and CAPG for 10M steps python train_trpo_gym.py --env Humanoid-v1 --steps 1000000


【文件预览】:
capg-master
----call_render.py(206B)
----assets()
--------Humanoid-v1.png(99KB)
----LICENSE(1KB)
----train_ppo_gym.py(8KB)
----train_trpo_gym.py(8KB)
----requirements.txt(118B)
----clipped_gaussian.py(4KB)
----clip_action.py(1KB)
----README.md(1KB)

网友评论