连续时间部分可观Markov决策过程的策略梯度估计 (2009年)

时间:2024-07-05 19:09:50
【文件属性】:

文件名称:连续时间部分可观Markov决策过程的策略梯度估计 (2009年)

文件大小:294KB

文件格式:PDF

更新时间:2024-07-05 19:09:50

工程技术 论文

针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用 一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法 的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.


网友评论