文件名称:Internship-Task:该存储库用于解决实习任务
文件大小:982KB
文件格式:ZIP
更新时间:2024-04-26 14:12:03
Python
实习任务 该存储库用于解决2021年夏季研究实习的任务“实施DQN,政策梯度或演员批评RL算法以解决Mountain-Car健身房环境” 详细说明 我已经实现了(简单/香草)深度Q网络(DQN)算法,该算法具有经验重播缓冲区,并且在“ DQN.py”内部频繁更改目标网络。 此DQN实施的受过训练的代理的gif 经过原始环境测试之后,培训没有任何改善。 因此,我更改了奖励功能,以测试不同的行为并看到一些改进。 已经测试了多种奖励功能,以符合所需的行为: 左右快速移动->与速度相关[第二观察] 靠近目标->与位置相关[第一观察] 我注意到一些观察结果: 当只有头寸在奖励中(或头寸占主导地位)时,它只会尝试不通过左右移动而只是向上移动 当只有速度在奖励(或速度主导)中时,它使得它只能左右快速移动,而不在乎真实的目标(位置) 为此,我做了一个新的奖励功能: 使得r是来自环境的原始
【文件预览】:
Internship-Task-main
----reinforce.py(0B)
----gif()
--------agent.gif(403KB)
--------agent2.gif(396KB)
----DQN.py(8KB)
----README.md(3KB)
----learn.py(1KB)
----run_agent.py(2KB)
----dqn_trained_agents()
--------agent2()
--------agent1()
----actor_critic.py(0B)
----.gitignore(2KB)