价值迭代
把贝尔曼方程拿来取使得价值最大的动作,进行迭代。
迭代过程:
策略迭代和价值迭代的区别
策略迭代是不断地通过计算价值,计算Q函数,取使得Q函数最大的动作来更新策略,重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数,然后通过取最大化Q函数来更新价值函数,直到收敛后再去求在最大价值下的策略。
把贝尔曼方程拿来取使得价值最大的动作,进行迭代。
迭代过程:
策略迭代是不断地通过计算价值,计算Q函数,取使得Q函数最大的动作来更新策略,重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数,然后通过取最大化Q函数来更新价值函数,直到收敛后再去求在最大价值下的策略。