文件名称:确定性清洁机器人的基于模型的策略迭代算法:使用基于模型的策略迭代方法的强化学习示例-matlab开发
文件大小:3KB
文件格式:ZIP
更新时间:2024-06-21 04:13:29
matlab
确定性清洁机器人的基于模型的策略迭代算法。 这段代码是策略迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 确定性清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (1) 和最后 (6) 个状态是终止状态。 目标是找到一个最优策略,使任何初始状态的回报最大化。 这里是policy-iteration(基于模型的策略迭代DP)。 参考:算法 2-5,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CR
【文件预览】:
model_based_deterministic_policy_iteration.zip