0.
强化学习的方法有:Q Learning(基于价值),Sarsa(基于价值),Policy Gradients(基于概率).
1.经验(观察observation,激励reward,行动action)
2.状态(state)
3.马尔科夫决策过程(MDP)
4.大致步骤
5.
计算累计奖励的期望,下面是对某个状态而言的:
下面是对所有状态而言的:
6。
0.
强化学习的方法有:Q Learning(基于价值),Sarsa(基于价值),Policy Gradients(基于概率).
1.经验(观察observation,激励reward,行动action)
2.状态(state)
3.马尔科夫决策过程(MDP)
4.大致步骤
5.
计算累计奖励的期望,下面是对某个状态而言的:
下面是对所有状态而言的:
6。