文件名称:Q学习山车v0
文件大小:282KB
文件格式:ZIP
更新时间:2024-03-06 01:00:28
带Q学习和SARSA的MountainCar-v0 该项目包含用于培训代理商以解决。 Q-Learning和SARSA 山地车环境 环境是二维的,由两座山丘之间的汽车组成。 汽车的目标是到达右侧山顶的旗帜。 丘陵太陡峭,以至于仅通过向同一方向移动就无法缩放汽车,它必须后退并第四次建立足够的动力才能向上行驶。 观察空间: 这是两个确定环境当前状态的变量。 赛车在赛道上的位置,从-1.2到0.6 轿厢速度,从-0.07到0.07。 左为负,右为正。 动作: 汽车可以采取以下三种不同的动作之一: 向左加速 不要加速 向右加速。 报酬: 在每个步骤中,汽车会根据该操作后达到的状态获得奖励: 如果探员到达山顶的旗帜(位置= 0.5),则奖励0。 如果座席的位置小于0.5,则奖励-1。 起始状态: 汽车在两座山之间起跑,在-0.6到-0.4之间的任意位置,速度等于0。 剧集终止: