文件名称:基于模型的层次化强化学习算法 (2006年)
文件大小:438KB
文件格式:PDF
更新时间:2024-05-16 23:30:47
自然科学 论文
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法。该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务。而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作。高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过