文件名称:连续时间部分可观Markov决策过程的策略梯度估计 (2009年)
文件大小:294KB
文件格式:PDF
更新时间:2024-07-05 19:09:50
工程技术 论文
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用 一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法 的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
文件名称:连续时间部分可观Markov决策过程的策略梯度估计 (2009年)
文件大小:294KB
文件格式:PDF
更新时间:2024-07-05 19:09:50
工程技术 论文
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用 一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法 的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.