回报函数学习的学徒学习综述 (2009年)

时间:2024-06-17 22:55:55
【文件属性】:

文件名称:回报函数学习的学徒学习综述 (2009年)

文件大小:722KB

文件格式:PDF

更新时间:2024-06-17 22:55:55

工程技术 论文

通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学 习方法。分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法―――基于逆向增强学习 ( IRL)和最大化边际规划( MMP)的学徒学习。前者有较为快速的近似算法,但对于演示的最优性作了较强的假设; 后者形式上更易于扩展,但计算量大。最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用 于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减


网友评论