基于拓扑序列更新的值迭代算法

时间:2024-02-04 15:47:54
【文件属性】:

文件名称:基于拓扑序列更新的值迭代算法

文件大小:1.95MB

文件格式:PDF

更新时间:2024-02-04 15:47:54

强化学习,值迭代,拓扑序列,VI-TS,

提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。


网友评论