RL学习笔记-马尔可夫过程-贝尔曼最优方程：

把贝尔曼方程拿来取使得价值最大的动作，进行迭代。

迭代过程：

策略迭代是不断地通过计算价值，计算Q函数，取使得Q函数最大的动作来更新策略，重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数，然后通过取最大化Q函数来更新价值函数，直到收敛后再去求在最大价值下的策略。

秒客网