rl-tictactoe:井字脚的增强学习剂。 实现萨顿和巴托(Sutton and Barto)第1章中的示例

时间:2024-06-03 18:22:26
【文件属性】:

文件名称:rl-tictactoe:井字脚的增强学习剂。 实现萨顿和巴托(Sutton and Barto)第1章中的示例

文件大小:4KB

文件格式:ZIP

更新时间:2024-06-03 18:22:26

Python

井字游戏中的强化学习 Tic-Tac-Toe值功能学习代理的参考实现,在Sutton和Barto的“强化学习:简介”的第1章中进行了介绍。 该代理包含一个查找表,该表将状态映射到值,其中初始值是1表示获胜,0表示平局或亏损,否则为0.5。 代理商每走一步,要么选择最大值移动(贪婪),要么选择几率ε,随机选择(探索性)。 默认情况下epsilon = 0.1。 每次贪婪移动后,代理都会根据以下等式更新其值函数(查找表): V(s) <- V(s) + alpha * [ V(s') - V(s) ] 此特定实现解决了练习1.1中提出的问题: What would happen if the RL agent taught itself via self-play? 结果是,代理仅学习如何最大程度地提高自身的潜在收益,而无需考虑其是在赢球还是在平局。 更重要的是,代理商学习了一种近视策


【文件预览】:
rl-tictactoe-master
----README.md(1KB)
----tictactoe.py(11KB)

网友评论