文件名称:PyTorch-RL:PyTorch实施深度强化学习
文件大小:5.36MB
文件格式:ZIP
更新时间:2024-06-11 16:11:12
reinforcement-learning deep-reinforcement-learning pytorch generative-adversarial-network policy-gradient
强化学习算法的PyTorch实现 该存储库包含: 策略渐变方法(TRPO,PPO,A2C) 重要笔记 该代码现在适用于PyTorch 0.4。 对于PyTorch 0.3,请检出0.3分支。 要运行mujoco环境,先安装和。 如果您有GPU,建议将OMP_NUM_THREADS设置为1(PyTorch在执行计算时会创建其他线程,这可能会损害多处理的性能。此问题在Linux上最为严重,在Linux中,多处理甚至比单线程还要慢): export OMP_NUM_THREADS=1 特征 支持离散和连续的动作空间。 支持代理的多重处理,以同时在多个环境中收集样本。 (比单线程快x8) 快速费舍尔矢量乘积计算。 对于这一部分,Ankur友好地写了一个解释了实现细节。 政策梯度法 -> -> -> 例子 python examples / ppo_gym.py --e
【文件预览】:
PyTorch-RL-master
----utils()
--------__init__.py(139B)
--------tools.py(126B)
--------replay_memory.py(862B)
--------torch.py(2KB)
--------math.py(371B)
--------zfilter.py(2KB)
----models()
--------mlp_discriminator.py(905B)
--------mlp_policy_disc.py(2KB)
--------mlp_critic.py(902B)
--------mlp_policy.py(2KB)
----core()
--------agent.py(6KB)
--------trpo.py(5KB)
--------ppo.py(1KB)
--------a2c.py(729B)
--------common.py(841B)
----examples()
--------ppo_gym.py(7KB)
--------a2c_gym.py(6KB)
--------trpo_gym.py(6KB)
----LICENSE(1KB)
----assets()
--------expert_traj()
--------learned_models()
----README.md(2KB)
----gail()
--------save_expert_traj.py(2KB)
--------gail_gym.py(8KB)