文件名称:离散控制Matlab代码-markov-decision-process:值迭代算法介绍
文件大小:263KB
文件格式:ZIP
更新时间:2024-06-12 01:48:47
系统开源
离散控制Matlab代码马可夫决策过程 马尔可夫决策过程(MDP)是离散的时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态编程和强化学习解决的优化问题非常有用。 MDP至少早在1950年代就已为人所知;罗纳德·霍华德(Ronald Howard)于1960年出版的《动态编程和马尔可夫过程》是马尔可夫决策过程研究的核心内容,它们被用于许多领域,包括机器人技术,自动控制,经济学和制造业。 MDP的名称来自俄罗斯数学家Andrey Markov。 。 算法: 值迭代(Bellman 1957):也称为反向归纳,不使用π函数; 而是在需要时在V(s)内计算π(s)的值。 将π(s)的计算代入V(s)的计算可得出组合步骤。 在下面查看有关如何计算效用的示例(有关更多详细信息,请参见-中的代码)算法: 策略迭代:在策略迭代中(霍华德1960),第一步执行一次,然后重复第二步直到收敛。 然后,再次执行第一步,依此类推。 对于大量可能的状态,策略迭代通常比值迭代慢。 算法 : 注意:在此代码中,我们将不处理该算法(我们将在稍后发
【文件预览】:
markov-decision-process-master
----ValueIteration.m(5KB)
----README.md(5KB)
----DisplayUtilities.m(593B)
----NeighboursSearch.m(1KB)
----MDP.m(4KB)
----DisplayPolitique.m(913B)
----DisplayReward.m(481B)
----files.()
--------ExampleUtilities.jpg(48KB)
--------InitialRewards.jpg(50KB)
--------valueiter.png(4KB)
--------valueiteralgorithm.png(38KB)
--------System.jpg(17KB)
--------OptimalPolitiquee.jpg(43KB)
--------politiqueiteralgorithm.png(54KB)
--------UtilitiesValues.jpg(50KB)
--------data(4B)
--------Example.jpg(12KB)