连续时间部分可观Markov决策过程的策略梯度估计 (2009年)下载

【文件属性】：

文件名称：连续时间部分可观Markov决策过程的策略梯度估计 (2009年)

文件大小：294KB

文件格式：PDF

更新时间：2024-07-05 19:09:50

工程技术论文

针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.

立即下载

秒客网