文件名称:retro_contest_agent
文件大小:914KB
文件格式:ZIP
更新时间:2024-05-31 03:05:33
Python
retro_contest_agent 我提交的基于OpenAI PPO2的OpenAI Retro Contest。 描述 我遵循的方法基于OpenAI PPO2基线实现,并在其后命名为PPO2ttifrutti。 元学习阶段包括技术报告中所述的联合培训,其中对超参数进行了调整,以优化我的硬件的使用效率和最佳准确性。 选择该设置是为了能够为Sonic快速原型化PPO的不同变体。 我尝试了许多变化,这些变化是从论文中获得启发的,例如使用体验重播,或者是在有监督的学习中通常采用的方法,例如数据增强。 在元学习阶段的最终版本中,通过将随机抽取的常数值添加到每个像素,可以在卷展栏中统一修改输入。 关于学习阶段,我调整了超参数以尽可能快地微调元学习期间训练的模型。 我注意到前15万个时间步长的分数变化很大:初始性能在回到原始水平之前显着下降,因此我调整了学习率以防止出现这种现象并避免浪费每次运行
【文件预览】:
retro_contest_agent-master
----metalearner()
--------ppo2ttifrutti_agent.py(3KB)
--------ppo2ttifrutti.py(14KB)
--------ppo2ttifrutti_policies.py(3KB)
--------ppo2ttifrutti_sonic_env.py(20KB)
----data()
--------SonicTheHedgehog2-Sms()
--------SonicAdvance-Gba()
--------SonicTheHedgehog-Sms()
----fastlearner()
--------ppo2ttifrutti_agent.py(2KB)
--------ppo2ttifrutti_agent.docker(698B)
--------ppo2ttifrutti.py(10KB)
--------ppo2ttifrutti_policies.py(2KB)
--------ppo2ttifrutti_sonic_env.py(3KB)
----README.md(4KB)
----LICENSE.txt(1KB)