reinforcement-learning:从强化学习实施练习

时间:2024-07-13 07:38:15
【文件属性】:

文件名称:reinforcement-learning:从强化学习实施练习

文件大小:142KB

文件格式:ZIP

更新时间:2024-07-13 07:38:15

Lua

强化学习:简介 实施练习。 第 2 章 - 强盗问题 nbandit.py ,针对 n 臂强盗问题的贪婪和 epsilon 贪婪代理的实现。 有关其工作原理的解释,请阅读本书;) 玩接球 作为一个更有趣的测试,我接下来尝试了一个非常简单的游戏:Catch。 一个球从 5x5 比赛场地顶部的随机位置开始,每轮向下移动一排。 玩家控制球棒接球宽度,球可以向左移动、向右移动或静止不动。 接球奖励+1,错过-1。 一个简单的基于表格的智能体在大约 500 集后学习完美播放,基于神经网络的智能体(具有 1 和 2 个隐藏层)需要更长的时间,大约 3000 集:


【文件预览】:
reinforcement-learning-master
----README.md(1KB)
----lua()
--------common.lua(472B)
--------random.lua(458B)
--------qlearner.lua(1KB)
--------monte_carlo.lua(2KB)
--------catch.lua(941B)
--------nnlearner.lua(3KB)
--------testbed.lua(3KB)
--------easy21.lua(1KB)
----screenshots()
--------nbandit.png(128KB)
--------catch.png(10KB)
----nbandit.py(5KB)
----catch.py(4KB)

网友评论