确定性清洁机器人的基于模型的策略迭代算法：使用基于模型的策略迭代方法的强化学习示例-matlab开发下载

【文件属性】：

文件名称：确定性清洁机器人的基于模型的策略迭代算法：使用基于模型的策略迭代方法的强化学习示例-matlab开发

文件大小：3KB

文件格式：ZIP

更新时间：2024-06-21 04:13:29

matlab

确定性清洁机器人的基于模型的策略迭代算法。这段代码是策略迭代算法的一个非常简单的实现，对于强化学习和动态规划领域的初学者来说，它是一个有用的起点。确定性清洁机器人 MDP：清洁机器人必须收集用过的罐子，还必须为电池充电。状态描述了机器人的位置，动作描述了运动的方向。机器人可以向左或向右移动。第一个 (1) 和最后 (6) 个状态是终止状态。目标是找到一个最优策略，使任何初始状态的回报最大化。这里是policy-iteration（基于模型的策略迭代DP）。参考：算法 2-5，来自： @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}，作者={Busoniu，Lucian 和 Babuska，Robert 和 De Schutter，Bart 和 Ernst，Damien}，年={2010}, 出版商={CR

立即下载

【文件预览】：
model_based_deterministic_policy_iteration.zip

秒客网

确定性清洁机器人的基于模型的策略迭代算法：使用基于模型的策略迭代方法的强化学习示例-matlab开发

网友评论

相关文章