Temporal-Difference Learning 时序差分学习

时间:2021-04-23 02:37:29
【文件属性】:

文件名称:Temporal-Difference Learning 时序差分学习

文件大小:10.17MB

文件格式:PDF

更新时间:2021-04-23 02:37:29

时序差分 强化学习

Temporal-difference (TD) learning可以说是增强学习的中心,它集成了蒙特卡洛思想和动态编程(dynamic programming, DP)思想,像蒙特卡洛方法一样,TD 方法不需要环境的动态模型,直接从经验经历中学习。


网友评论