文件名称:DQN:带有重播缓冲区的深度Q网络实现
文件大小:5KB
文件格式:ZIP
更新时间:2024-04-23 01:34:40
Python
DQN 带有重播缓冲区的深度Q网络实现 在本课程中,我实施了DQN来解决代理商必须达到目标的迷宫。 从高层次的角度来看,代理从其经验中学习。 在每个步骤之后,根据当前状态和新状态收集正或负奖励(第254-263行)。 特别地,该代理因非常接近目标而受到积极奖励(第254行),因撞墙而受到惩罚(第257行),并因有效地向右移动而受到积极奖励(第260行)。 垂直移动既不会受到惩罚也不会得到奖励(第263行)。 同样,碰壁也要按距球门距离的比例进行惩罚。 在每个步骤中,业务代表都可以在三种可能的操作之间进行选择:上,下,右(240-248)。 在训练过程中,决定采取什么行动是由ε贪婪策略控制的(第196-211行),其中以(1- −ε)+ε/ 3的概率选择最佳行动,而其他所有行动均以ε/的概率进行选择3。 这使代理既可以探索环境,也可以利用迄今为止所学的知识。 为了优化在勘探和开发之间的权衡
【文件预览】:
DQN-main
----DQN.py(11KB)
----README.md(3KB)