ThirdYearProject:增强强化学习代理

时间:2024-04-08 15:25:15
【文件属性】:

文件名称:ThirdYearProject:增强强化学习代理

文件大小:1.53MB

文件格式:ZIP

更新时间:2024-04-08 15:25:15

Python

第三年项目 该项目使用强化学习来通过各种方法训练特工播放4x4和5x5井字游戏。然后,我可以比较每种方法。 为此,重点关注了RL实现常见的两个主要概念以及它们如何影响性能。这些概念是:代理程序的价值功能实现以及所使用的培训数据。 第一个概念-价值函数-可以以多种不同的方式实现,通常,每种实现都会根据以前在不同程度上看到的状态来更改RL代理能够“普遍化”的能力。此功能通常指的是对数值函数的近似程度。已经研究了在不同程度上近似值函数的实现及其与性能的关系。 第二个概念-训练数据-是指用于告知RL代理对环境的了解并因此用于告知其决策的数据。此培训数据(不同于其他类型的机器学习中的培训数据)不是由任何外部代理生成的,而是只能使用我们代理的当前理解来生成。产生此训练数据的方式称为训练数据方法,并且还将研究更改方法对我们RL代理商的表现的影响。 对于每个概念,已实施了不同的实施方式,这是由受过训练的4


网友评论