文件名称:MDP 机器人网格世界示例:应用值迭代来学习网格世界中机器人的策略。-matlab开发
文件大小:3KB
文件格式:ZIP
更新时间:2024-06-21 00:19:02
matlab
应用值迭代来学习马尔可夫决策过程 (MDP) 的策略——网格世界中的机器人。 世界是*空间 (0) 或障碍 (1)。 机器人每转一圈都可以向 8 个方向移动,或保持原地不动。 奖励函数给一个*空间、目标位置、高奖励。 所有其他*空间都有一个小的惩罚,障碍有一个很大的负奖励。 值迭代用于学习最佳“策略”,即分配一个控制输入到每个可能的位置。 视频在https://youtu.be/gThGerajccM 此功能将始终完美执行运动的确定性机器人与随机机器人进行比较,随机机器人从命令移动的角度移动 +/- 45 度的可能性很小。 随机机器人的最佳策略是避开狭窄的通道并尝试移动到走廊的中心。 来自“概率机器人”中的第 14 章,ISBN-13:978-0262201629, http : //www.probabilistic-robotics.org 亚伦贝克尔,2015 年
【文件预览】:
MDPgridworldExample.zip