文件名称:mistake-in-retro-contest-of-OpenAI
文件大小:79KB
文件格式:ZIP
更新时间:2024-05-14 03:45:12
Python
OpenAI的复古竞赛中的错误 我的昵称是复古比赛中的错误。 这是我比赛的源代码,可能有点混乱,对此我感到抱歉。 稍后我将对其进行重新组织。 我只在比赛中尝试使用Rainbow模型,因此我的代码中没有PPO或混蛋模型。 也许以后再添加。 为了调整一些参数,从anyrl-py( )复制了项目中的某些类和函数。 #关于转学 在比赛期间,我们尝试了以下两种方法来训练Rainbow模型: 仅设计网络,然后提交参数不是预训练的作业, 设计网络并在本地对参数进行训练(大约7百万个时间步长),然后提交作业。 我们选择第一种训练模型的方法。 它的得分比第二得分高2000左右。 原因可能是第二种方法在每次训练后失去了学习的随机性。 #一些优化基于OpenAI基线 在测试了名为Nstep的参数之后,我们发现最佳值为4,我们认为这是当前与未来之间的平衡点。 使用nature_cnn训练一百万步
【文件预览】:
mistake-in-retro-contest-of-OpenAI-master
----.gitattributes(58B)
----requirements.sh(217B)
----src()
--------utils()
--------envs()
--------models()
--------spaces()
--------__init__.py(76B)
--------test()
--------main()
--------rollouts()
----README.md(3KB)
----.gitignore(58B)