强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。
打算最近介绍一个系列,今天先来说说这篇2003年的Meta-learning in Reinforcement Learning,虽然当时RL还没有和DL相结合,但是文章中的很多想法都很有预见性,同时与生物特性的联系讨论也很有启发性。
RL中的元参数
- 学习率 : 控制训练速度,过小导致学习缓慢,过大则导致学习过程振荡。
- 逆温度系数 : 在依概率随机选取动作的设定下,往往采用其中 为状态-动作值函数。此时逆温度系数 控制着探索-利用之间的权衡。理想情况下, 在学习的初始阶段应该较小,因为此时智能代理还不能将动作很好地映射到其长期汇报,应该鼓励更多的探索;并且随着代理获得越来越大的奖励而逐渐增大。
- 折扣因子 : 指示代理应该将未来多远的奖励纳入考虑范围。如果 较小,则代理只考虑短期收益,如果 则意味着代理要将未来长期所有的收益都纳入考虑。但在实际中有几个原因阻碍了这一点:其一,任何代理都有有限的寿命,无论是人工的还是生物的,一个有折扣的价值函数 = 一个无折扣的价值函数 + 一个有固定死亡率 的代理。其二,代理所能接受的奖励延迟是有限度的,如动物必须在饿死之前找到食物。其三,如果环境转移动态是随机不平稳的,那么长期预测注定不可靠。其四,学习价值函数的复杂度 .