文件名称:DDPG连续控制
文件大小:1.27MB
文件格式:ZIP
更新时间:2024-03-10 12:39:50
Python
Unity带有RL的Reacher环境解决方案 介绍 该项目是用于解决Unity v0.4环境的深度确定性策略梯度强化学习算法的实现。 环境细节 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,代理的目标是将其在目标位置的位置保持尽可能多的时间步长。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 该环境由20个相同的代理组成,每个代理都有自己的环境副本。 要考虑解决此环境,特工必须获得+30的平均分数(连续100次以上以及所有特工均达到)。 具体来说, 在每个情节之后,我们将汇总每个代理商的奖励(不打折),以获得每个代理商的得分。 这将产生20个(可能不同)的分数。 然后,我们取这20个分
【文件预览】:
DDPG-Continous-Control-main
----checkpoint_actor.pth(538KB)
----ddpg_agent.py(9KB)
----imgs()
--------algorithm.png(186KB)
--------graph.png(13KB)
----checkpoint_critic.pth(539KB)
----model.py(3KB)
----REPORT.md(6KB)
----LICENSE(1KB)
----Continuous_Control.ipynb(36KB)
----README.md(4KB)
----.gitignore(2KB)
----python()
--------unityagents()
--------trainer_config.yaml(4KB)
--------requirements.txt(153B)
--------curricula()
--------setup.py(874B)
--------README.md(273B)
--------learn.py(4KB)
--------Basics.ipynb(6KB)
--------communicator_objects()
--------tests()
--------unitytrainers()