pySACQ:SAC-Q强化学习算法的PyTorch实施(在OpenAI Gym环境中测试)

时间:2021-05-22 03:30:23
【文件属性】:
文件名称:pySACQ:SAC-Q强化学习算法的PyTorch实施(在OpenAI Gym环境中测试)
文件大小:49KB
文件格式:ZIP
更新时间:2021-05-22 03:30:23
Python **不再维护,由您自担风险** PySACX 此仓库包含SAC-X RL算法[1]的Pytorch实现。 它使用来自OpenAI健身房的Lunar Lander v2环境。 SAC-X算法可以在存在多个稀疏奖励信号的情况下从头开始学习复杂的行为。 理论 除了主要任务奖励外,我们还定义了一系列辅助奖励。 一个重要的假设是,可以在任何状态动作对中评估每个辅助奖励。 奖励定义如下: 辅助任务/奖励 触碰。 最大化接触地面的腿数 悬停平面。 最小化着陆器的平面运动 悬停角度。 最小化着陆器的旋转运动 直立。 最小化着陆器的角度 射门距离。 最小化着陆器和护垫之间的距离 主要任务/奖励 着陆器是否成功着陆(基于着陆成功的稀疏奖励) 每个任务(本文中的意图)在神经网络中都有一个特定的模型头,用于估计参与者和评论者的功能。 在训练过程中执行轨迹时,任务(以及演员内部的模型负责人)将在不同的可用选项
【文件预览】:
pySACQ-master
----local()
--------template.sh(547B)
----.gitignore(386B)
----requirements.txt(45B)
----tasks.py(4KB)
----README.md(3KB)
----networks.py(8KB)
----docs()
--------policy_net.png(20KB)
--------critic_net.png(18KB)
----model.py(13KB)
----train.py(6KB)

网友评论