Contra-PPO-pytorch:相反的最近策略优化(PPO)算法

时间:2024-05-29 12:15:38
【文件属性】:

文件名称:Contra-PPO-pytorch:相反的最近策略优化(PPO)算法

文件大小:38.39MB

文件格式:ZIP

更新时间:2024-05-29 12:15:38

reinforcement-learning ai deep-learning openai gym

[PYTORCH]针对矛盾的最近策略优化(PPO) 介绍 这是我的python源代码,用于训练代理播放相反的声音。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。 供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体来说,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前专业人士组成的团队,在Dota 2玩家的99.95%中。 样品结果 动机 自从我发布我的A3C实现( )和PPO实现( )以来,已经有一段时间了,以训练代理人玩超级马里奥兄弟。 由于PPO在完成的关卡数量上胜过A3C,因此,下一步,我想看看前者在另一个著名的NES游戏中的表现如何:对战 如何使用我的代码 使用我的代码,您可以: 通过运行python train.py训练模型。 例如: python train.py


【文件预览】:
Contra-PPO-pytorch-master
----Dockerfile(305B)
----README.md(2KB)
----trained_models()
--------ppo_contra_level1(12.57MB)
----test.py(2KB)
----train.py(7KB)
----src()
--------process.py(1KB)
--------env.py(5KB)
--------model.py(1KB)
----output()
--------video_1.mp4(3.74MB)
----demo()
--------video-1.gif(24.75MB)

网友评论