确定性清洁机器人的 Q-learning（无模型值迭代）算法：使用 Q-learning 和 epsilon-greedy 探索的强化学习示例-matlab开发下载

【文件属性】：

文件名称：确定性清洁机器人的 Q-learning（无模型值迭代）算法：使用 Q-learning 和 epsilon-greedy 探索的强化学习示例-matlab开发

文件大小：3KB

文件格式：ZIP

更新时间：2024-06-19 05:26:28

matlab

Q-learning with epsilon-greedy explore Algorithm for Deterministic Cleaning Robot V1 确定性清洁机器人 MDP 清洁机器人必须收集用过的罐子也必须为其充电电池。状态描述了机器人的位置和动作描述运动的方向。机器人可以向左移动或向左移动正确的。第一个 (1) 和最后 (6) 个状态是终端状态。目标是找到最大化回报的最优策略从任何初始状态。这里是 Q-learning epsilon-greedy 探索使用算法（在强化学习中）。算法 2-3，来自： @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}，作者={Busoniu，Lucian 和 Babuska，Robert 和 De Schutter，Bart 和 Ernst，Damien

立即下载

【文件预览】：
qlearning.zip

秒客网

确定性清洁机器人的 Q-learning（无模型值迭代）算法：使用 Q-learning 和 epsilon-greedy 探索的强化学习示例-matlab开发

网友评论

相关文章