文件名称:Temporal-Difference Learning 时序差分学习
文件大小:10.17MB
文件格式:PDF
更新时间:2021-04-23 02:37:29
时序差分 强化学习
Temporal-difference (TD) learning可以说是增强学习的中心,它集成了蒙特卡洛思想和动态编程(dynamic programming, DP)思想,像蒙特卡洛方法一样,TD 方法不需要环境的动态模型,直接从经验经历中学习。
文件名称:Temporal-Difference Learning 时序差分学习
文件大小:10.17MB
文件格式:PDF
更新时间:2021-04-23 02:37:29
时序差分 强化学习
Temporal-difference (TD) learning可以说是增强学习的中心,它集成了蒙特卡洛思想和动态编程(dynamic programming, DP)思想,像蒙特卡洛方法一样,TD 方法不需要环境的动态模型,直接从经验经历中学习。