文件名称:A2C,PPO和ACKTR深度强化学习可扩展信赖域方法的PyTorch实现-python
文件大小:8.53MB
文件格式:ZIP
更新时间:2024-07-08 12:22:57
机器学习
Advantage Actor Critic (A2C)、Proximal Policy Optimization (PPO)和使用Kronecker-factored approximation (ACKTR)的深度强化学习的可扩展信赖域方法的PyTorch实现。 pytorch-a2c-ppo-acktr 请使用此自述文件中的超参数。 对于其他超参数,事情可能不起作用(毕竟是 RL)! 这是 Advantage Actor Critic (A2C) 的 PyTorch 实现,A3C 近端策略优化 PPO 的同步确定性版本使用 Kronecker 因子近似进行深度强化学习的可扩展信任区域方法 ACKTR Generative Adversarial Imitation Learning GAIL 另见 OpenAI 帖子:A2C /ACKTR 和 PPO 以获取更多信息。 此实现的灵感来自于 A2C、ACKTR 和 PPO 的 OpenAI 基线。 它使用相同的超参数和模型,因为它们针对 Atari 游戏进行了很好的调整。 如果你想在你的出版物中引用这个存储库,请使用这个