Q-Learning之MDP问题

增强学习需要考虑的问题是Agent与Environment多参数之间交互的任务，同样会存在闭环控制链，来使系统达到我们所预期的最优状态。对于绝大多数的加强学习都可以模型化为MDP问题（Figure2 中间部分），在MDP问题中，提到State是完全可观察的全部环境的State ，并且下一个State却决于当前的State和当前的Action。在此基础上，Policy起着连接State和Action之间关键性作用，对于当前的State，Policy会预测所有Action的潜在价值期望，做出决策，同时对于此次的决策的结果，在一套完善的策略评估系统上会得到一个评估Reward，在此过程中，将会产生三个中间变量：State，Action以及Reward，可以作为一次SAMPLE。重复这一试验过程，将会得到（SAMPLES）样本序列，反过来，我们用SAMPLES去更新和改进Policy，这里引入一个策略价值评估函数Q（s）来衡量目前Policy对于未来做出决策的潜在价值。

增强学习算法核心思想：通过反复试验，使得价值函数Q（s）收敛到最优

本质上：使用当前策略产生新的样本，然后使用新的样本评估策略的价值，通过策略的价值更新和提高策略，反复试验。

理论可以证明：最终策略将收敛到最优。

秒客网

Q-Learning之MDP问题

相关文章