平均报酬指标多步递推最小二乘即时差分学习* (2008年)

时间:2024-06-07 19:44:54
【文件属性】:

文件名称:平均报酬指标多步递推最小二乘即时差分学习* (2008年)

文件大小:515KB

文件格式:PDF

更新时间:2024-06-07 19:44:54

自然科学 论文

对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究。近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法。并给出了其一致收敛性证明。


网友评论