文件名称:基于拓扑序列更新的值迭代算法
文件大小:1.95MB
文件格式:PDF
更新时间:2024-02-04 15:47:54
强化学习,值迭代,拓扑序列,VI-TS,
提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。
文件名称:基于拓扑序列更新的值迭代算法
文件大小:1.95MB
文件格式:PDF
更新时间:2024-02-04 15:47:54
强化学习,值迭代,拓扑序列,VI-TS,
提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。