文件名称:mountain-car-SARSA-AC:使用具有线性函数逼近的SARSA解决山地车问题
文件大小:7KB
文件格式:ZIP
更新时间:2024-05-22 03:40:26
Python
具有SARSA函数逼近的山地车 该存储库包含两个项目: 使用具有线性函数逼近的SARSA解决山地车问题。 使用Actor Critic解决连续山地车问题。 山地车是最流行的强化学习测试环境之一。 特工必须学习利用滚下山坡而达到目标的势头。 它具有一个连续的状态空间,其中包含一组离散的动作(向左,向右和不执行任何操作)。 我使用了特征向量和权重集的线性组合来近似状态作用值函数Q。使用允许非线性值函数的RBF核近似,将状态样本转换为更高维的空间。 只需运行mountaincar.py并根据需要注释掉env.render()即可切换可视化。 我还包括用于梯度检查和动作选择,值函数和奖励图的可选方法。 将它变成Q-Learning解决方案将花费很少的精力。 对于连续的环境,代理倾向于收敛到选择不移动的局部最优状态。 这是因为对代理而言,每次执行操作都会得到负奖励,而奖励0胜于奖励-99