文件名称:distributed-ppo:这是分布式近端策略优化(DPPO)的pytorch实现
文件大小:3.42MB
文件格式:ZIP
更新时间:2024-05-17 08:07:23
pytorch reinforcement-learning-algorithms multiprocess proximal-policy-optimization ppo
分布式近端策略优化(DPPO) 这是的pytorch版本实现。 该项目基于。 但是,它已经被重写并包含一些修改,这些修改在某些环境下可能会改善学习。 在这段代码中,我修改了运行均值过滤器,从而提高了性能(例如,在Walker2D中)。 我还重写了代码以分别支持Actor Network和Critic Network 。 然后,此更改允许为某些任务创建对象,而在训练时可用的信息在运行时不可用。 此外,该项目中的操作是从Beta分布中采样的,可以在许多任务中提高培训速度和性能。 要求 python 3.5.2 Openai体育馆 mujoco-python pytorch-0.3.1(将在8月更新到0.4.1版本! ) 指令运行代码 训练模型 cd /root-of-this-code/ python train_network.py 您也可以尝试其他mujoco的环境。 该代码已经预