Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2

时间:2024-04-07 20:40:47
【文件属性】:

文件名称:Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2

文件大小:10.34MB

文件格式:ZIP

更新时间:2024-04-07 20:40:47

machine-learning reinforcement-learning machine-learning-algorithms deep-reinforcement-learning reinforcement-learning-algorithms

深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定


网友评论