Contra-PPO-pytorch:相反的最近策略优化（PPO）算法下载

【文件属性】：

文件名称：Contra-PPO-pytorch:相反的最近策略优化（PPO）算法

文件大小：38.39MB

文件格式：ZIP

更新时间：2024-05-29 12:15:38

reinforcement-learning ai deep-learning openai gym

[PYTORCH]针对矛盾的最近策略优化（PPO）介绍这是我的python源代码，用于训练代理播放相反的声音。通过使用纸张近端策略优化算法推出近端政策优化（PPO）算法。供您参考，PPO是OpenAI提出的算法，用于训练OpenAI Five，这是第一款在电竞游戏中击败世界冠军的AI。具体来说，OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前专业人士组成的团队，在Dota 2玩家的99.95％中。样品结果动机自从我发布我的A3C实现（）和PPO实现（）以来，已经有一段时间了，以训练代理人玩超级马里奥兄弟。由于PPO在完成的关卡数量上胜过A3C，因此，下一步，我想看看前者在另一个著名的NES游戏中的表现如何：对战如何使用我的代码使用我的代码，您可以：通过运行python train.py训练模型。例如： python train.py

立即下载

【文件预览】：
Contra-PPO-pytorch-master
----Dockerfile(305B)
----README.md(2KB)
----trained_models()
--------ppo_contra_level1(12.57MB)
----test.py(2KB)
----train.py(7KB)
----src()
--------process.py(1KB)
--------env.py(5KB)
--------model.py(1KB)
----output()
--------video_1.mp4(3.74MB)
----demo()
--------video-1.gif(24.75MB)

秒客网

Contra-PPO-pytorch:相反的最近策略优化（PPO）算法

网友评论

相关文章