强化学习概念

时间：2021-05-05 10:19:59

0.

强化学习的方法有：Q Learning（基于价值）,Sarsa（基于价值）,Policy Gradients(基于概率).

1.经验（观察observation，激励reward，行动action）

强化学习概念

2.状态（state）

强化学习概念

3.马尔科夫决策过程（MDP）

强化学习概念

4.大致步骤

强化学习概念

5.

计算累计奖励的期望，下面是对某个状态而言的：

强化学习概念

下面是对所有状态而言的：

强化学习概念

6。

标签：tensorflow

相关文章

