离散控制Matlab代码-markov-decision-process:值迭代算法介绍下载

【文件属性】：

文件名称：离散控制Matlab代码-markov-decision-process:值迭代算法介绍

文件大小：263KB

文件格式：ZIP

更新时间：2024-06-12 01:48:47

系统开源

离散控制Matlab代码马可夫决策过程马尔可夫决策过程（MDP）是离散的时间随机控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态编程和强化学习解决的优化问题非常有用。 MDP至少早在1950年代就已为人所知;罗纳德·霍华德（Ronald Howard）于1960年出版的《动态编程和马尔可夫过程》是马尔可夫决策过程研究的核心内容，它们被用于许多领域，包括机器人技术，自动控制，经济学和制造业。 MDP的名称来自俄罗斯数学家Andrey Markov。。算法：值迭代（Bellman 1957）：也称为反向归纳，不使用π函数；而是在需要时在V（s）内计算π（s）的值。将π（s）的计算代入V（s）的计算可得出组合步骤。在下面查看有关如何计算效用的示例（有关更多详细信息，请参见-中的代码）算法：策略迭代：在策略迭代中（霍华德1960），第一步执行一次，然后重复第二步直到收敛。然后，再次执行第一步，依此类推。对于大量可能的状态，策略迭代通常比值迭代慢。算法：注意：在此代码中，我们将不处理该算法（我们将在稍后发

立即下载

【文件预览】：
markov-decision-process-master
----ValueIteration.m(5KB)
----README.md(5KB)
----DisplayUtilities.m(593B)
----NeighboursSearch.m(1KB)
----MDP.m(4KB)
----DisplayPolitique.m(913B)
----DisplayReward.m(481B)
----files.()
--------ExampleUtilities.jpg(48KB)
--------InitialRewards.jpg(50KB)
--------valueiter.png(4KB)
--------valueiteralgorithm.png(38KB)
--------System.jpg(17KB)
--------OptimalPolitiquee.jpg(43KB)
--------politiqueiteralgorithm.png(54KB)
--------UtilitiesValues.jpg(50KB)
--------data(4B)
--------Example.jpg(12KB)

秒客网

离散控制Matlab代码-markov-decision-process:值迭代算法介绍

网友评论

相关文章