免模型预测
蒙特卡洛估计
蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一,本质是一种统计模拟方法。
蒙特卡洛方法主要分成两种算法,一种是首次访问蒙特卡洛()方法,另外一种是每次访问蒙特卡洛()方法。 方法主要包含两个步骤,首先是产生一个回合的完整轨迹,然后遍历轨迹计算每个状态的回报。
时序差分估计
时序差分估计方法是一种基于经验的动态规划方法,它结合了蒙特卡洛和动态规划的思想。最简单的时序差分可以表示为式 。
蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一,本质是一种统计模拟方法。
蒙特卡洛方法主要分成两种算法,一种是首次访问蒙特卡洛()方法,另外一种是每次访问蒙特卡洛()方法。 方法主要包含两个步骤,首先是产生一个回合的完整轨迹,然后遍历轨迹计算每个状态的回报。
时序差分估计方法是一种基于经验的动态规划方法,它结合了蒙特卡洛和动态规划的思想。最简单的时序差分可以表示为式 。