文件名称:subare:萨顿和巴托的书中的强化学习算法
文件大小:320KB
文件格式:ZIP
更新时间:2024-05-28 08:59:51
reinforcement-learning qlearning monte-carlo sarsa dynamic-programming
ch.ethz.idsc.subare Java 0.3.8版中用于强化学习的库 存储库包括第二版《 Richard S. Sutton和Andrew G. Barto撰写的算法,示例和练习。 我们的实现受到Zhang Shangtong的的启发,但在两个方面与参考文献有所不同: 算法是与问题场景分开实施的 数学具有精确的精度,如果问题具有对称性,则结果中会重现对称性 演算法 迭代策略评估(平行于4.1,第59页) 确定V *(s)的值迭代(平行于4.4,第65页) 确定Q *(s,a)的操作值迭代(并行) 首次访问政策评估(第5.1页,第74页) 蒙特卡洛探索之旅(第5.3页,第79页) Contant-alpha蒙特卡洛 表格时差(in 6.1,p.96) Sarsa :一种策略上的TD控制算法(在6.4,第104页中) Q学习:脱离策略的TD控制算法(在6.5中,