racetrack:表格式强化学习代理的环境

时间:2024-06-02 09:52:37
【文件属性】:

文件名称:racetrack:表格式强化学习代理的环境

文件大小:328KB

文件格式:ZIP

更新时间:2024-06-02 09:52:37

machine-learning reinforcement-learning reinforcement-learning-algorithms reinforcement-learning-agent sutton-book

蒙特卡洛赛车场 这是Racetrack环境和蒙特卡洛代理的实现,如Sutton and Barto的《强化学习:简介》第5章中所述。我的代理可以解决书中提出的问题,并且我将进一步尝试增加环境的难度。 环境 本书推荐了两种环境(第二和第三张图片),我又添加了一个用于调试。 第三种环境比第二种更大,但实际上更容易解决。 赛车从底部开始,应尽可能快地移至终点(位于右上角)。 for track in track_1 track_2 track_3; do python -m scripts.show_racetrack "$track" --save-path "images/$track.svg"; done 结果 原始问题 在最初的问题中,当汽车试图离开赛道但情节没有终止时会受到处罚。 取而代之的是,将赛车放回到赛道上,环境确保赛车始终向终点移动至少一个正方形。 而且,汽车只能移动到


【文件预览】:
racetrack-master
----constants.py(150B)
----agent.py(5KB)
----images()
--------track_2_strict_eps_0.5_episode_4.svg(13KB)
--------track_3.svg(13KB)
--------track_2_episode_4.svg(13KB)
--------track_2_strict_eps_1.0_episode_1.svg(13KB)
--------track_1_episode_3.svg(13KB)
--------track_3_strict_episode_5.svg(13KB)
--------track_3_strict_episode_11.svg(13KB)
--------track_3_episode_6.svg(13KB)
--------track_2_strict_episode_5.svg(13KB)
--------track_2_strict_eps_0.5_episode_6.svg(13KB)
--------track_3_episode_2.svg(13KB)
--------track_3_episode_13.svg(13KB)
--------track_2_strict_episode_6.svg(13KB)
--------track_2_strict_eps_0.5_episode_5.svg(13KB)
--------track_3_episode_5.svg(13KB)
--------track_3_strict_episode_22.svg(13KB)
--------track_2_strict_episode_4.svg(13KB)
--------track_3_strict_episode_2.svg(13KB)
--------track_3_strict_episode_18.svg(13KB)
--------track_1_strict_episode_1.svg(13KB)
--------track_3_episode_3.svg(13KB)
--------track_3_episode_10.svg(13KB)
--------track_3_episode_14.svg(13KB)
--------track_3_strict_episode_1.svg(13KB)
--------track_3_episode_9.svg(13KB)
--------track_1_episode_1.svg(13KB)
--------track_3_strict_episode_12.svg(13KB)
--------track_2_episode_1.svg(13KB)
--------track_3_episode_19.svg(13KB)
--------track_2_strict_episode_1.svg(13KB)
--------track_3_strict_episode_23.svg(13KB)
--------track_3_episode_8.svg(13KB)
--------track_3_strict_episode_19.svg(13KB)
--------track_3_episode_11.svg(13KB)
--------track_2_strict_episode_2.svg(13KB)
--------track_3_strict_episode_15.svg(13KB)
--------track_2_strict_eps_0.5_episode_1.svg(13KB)
--------track_2_strict_eps_0.5_episode_2.svg(13KB)
--------track_2_strict_eps_1.0_episode_2.svg(13KB)
--------track_2_episode_5.svg(13KB)
--------track_3_episode_18.svg(13KB)
--------track_3_episode_17.svg(13KB)
--------track_1.svg(12KB)
--------track_3_episode_22.svg(13KB)
--------track_3_episode_16.svg(13KB)
--------track_3_strict_episode_20.svg(13KB)
--------track_2_strict_eps_1.0_episode_5.svg(13KB)
--------track_3_strict_episode_17.svg(13KB)
--------track_3_strict_episode_8.svg(13KB)
--------track_3_episode_4.svg(13KB)
--------track_2_strict_episode_3.svg(13KB)
--------track_3_strict_episode_4.svg(13KB)
--------track_3_episode_1.svg(13KB)
--------track_3_strict_episode_6.svg(13KB)
--------track_3_strict_episode_7.svg(13KB)
--------track_1_strict_episode_3.svg(13KB)
--------track_2_episode_2.svg(13KB)
--------track_3_strict_episode_10.svg(13KB)
--------track_2.svg(12KB)
--------track_2_strict_eps_1.0_episode_6.svg(13KB)
--------track_3_strict_episode_14.svg(13KB)
--------track_3_strict_episode_9.svg(13KB)
--------track_3_episode_21.svg(13KB)
--------track_3_strict_episode_16.svg(13KB)
--------track_2_strict_eps_0.5_episode_3.svg(13KB)
--------track_2_strict_eps_1.0_episode_3.svg(13KB)
--------track_3_strict_episode_21.svg(13KB)
--------track_3_episode_23.svg(13KB)
--------track_3_strict_episode_3.svg(13KB)
--------track_2_episode_6.svg(13KB)
--------track_3_episode_20.svg(13KB)
--------track_3_episode_7.svg(13KB)
--------track_3_episode_15.svg(13KB)
--------track_1_strict_episode_2.svg(13KB)
--------track_2_episode_3.svg(13KB)
--------track_2_strict_eps_1.0_episode_4.svg(13KB)
--------track_3_episode_12.svg(13KB)
--------track_1_episode_2.svg(13KB)
--------track_3_strict_episode_13.svg(13KB)
----utils.py(244B)
----tests()
--------test_environment.py(2KB)
----LICENSE(1KB)
----requirements.txt(16B)
----.gitignore(39B)
----README.md(5KB)
----racetracks.py(5KB)
----scripts()
--------solve_racetrack.py(2KB)
--------show_racetrack.py(881B)
----environment.py(8KB)

网友评论