求解部分可观测马氏决策过程的强化学习算法 (2004年)

时间:2024-06-05 09:21:01
【文件属性】:

文件名称:求解部分可观测马氏决策过程的强化学习算法 (2004年)

文件大小:270KB

文件格式:PDF

更新时间:2024-06-05 09:21:01

自然科学 论文

针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法――CPnSarsa(λ)学习算法来解决该问题。它通过重新定义状态,Agent结合观测历史来识别混淆状态。将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略。与以往算法相比。该算法的收敛速度有了很大提高。


网友评论