RL2 免模型预测、免模型控制

时间:2024-01-21 11:49:11

免模型预测

蒙特卡洛估计

蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一,本质是一种统计模拟方法。

蒙特卡洛方法主要分成两种算法,一种是首次访问蒙特卡洛( )方法,另外一种是每次访问蒙特卡洛( )方法。 方法主要包含两个步骤,首先是产生一个回合的完整轨迹,然后遍历轨迹计算每个状态的回报。

时序差分估计

时序差分估计方法是一种基于经验的动态规划方法,它结合了蒙特卡洛和动态规划的思想。最简单的时序差分可以表示为式

这种算法一般称为单步时序差分 ),即 。可以看到,在这个更新过程中使用了当前奖励和后继状态的估计,这是类似于蒙特卡罗方法的;但同时也利用了贝尔曼方程的思想,将下一状态的值函数作为现有状态值函数的一部分估计来更新现有状态的值函数。此外,时序差分还结合了自举( )的思想,即未来状态的价值是通过现有的估计