A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion.
这三种方法之间有什么区别呢?
A2C
这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个 advantage :
A3C
很好理解,比 A2C 多一个A:Asynchronous,是一种异步更新的方法
PPO
比上面两种方法又多了一个 clip 操作