MDP 机器人网格世界示例：应用值迭代来学习网格世界中机器人的策略。-matlab开发下载

【文件属性】：

文件名称：MDP 机器人网格世界示例：应用值迭代来学习网格世界中机器人的策略。-matlab开发

文件大小：3KB

文件格式：ZIP

更新时间：2024-06-21 00:19:02

matlab

应用值迭代来学习马尔可夫决策过程 (MDP) 的策略——网格世界中的机器人。世界是*空间 (0) 或障碍 (1)。机器人每转一圈都可以向 8 个方向移动，或保持原地不动。奖励函数给一个*空间、目标位置、高奖励。所有其他*空间都有一个小的惩罚，障碍有一个很大的负奖励。值迭代用于学习最佳“策略”，即分配一个控制输入到每个可能的位置。视频在https://youtu.be/gThGerajccM 此功能将始终完美执行运动的确定性机器人与随机机器人进行比较，随机机器人从命令移动的角度移动 +/- 45 度的可能性很小。随机机器人的最佳策略是避开狭窄的通道并尝试移动到走廊的中心。来自“概率机器人”中的第 14 章，ISBN-13：978-0262201629， http : //www.probabilistic-robotics.org 亚伦贝克尔，2015 年

立即下载

【文件预览】：
MDPgridworldExample.zip

秒客网

MDP 机器人网格世界示例：应用值迭代来学习网格世界中机器人的策略。-matlab开发

网友评论

相关文章