RL学习笔记-马尔可夫过程-贝尔曼最优方程:

时间:2024-10-28 07:51:13
价值迭代

        把贝尔曼方程拿来取使得价值最大的动作,进行迭代。

        迭代过程:

策略迭代和价值迭代的区别

        策略迭代是不断地通过计算价值,计算Q函数,取使得Q函数最大的动作来更新策略,重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数,然后通过取最大化Q函数来更新价值函数,直到收敛后再去求在最大价值下的策略。