本节课分为四个部分:
- Markov Processes(MP)
- Markov Reward Processes(MRP)
- Markov Decision Processes(MDP)
- MDP扩展
上节课在讲完全可观察环境的时候有提到MDP,几乎所有的增强学习问题都可以简化为MDP问题。那么MDP是什么呢?首先谈一下Markov的性质:“The future is independent of the past given the present”,也就是给定当前状态,未来怎么样,从当前状态就可以得出——当前状态包含了历史的所有信息。
以下是MP、MRP和MDP的比较
比较 | MP | MRP | MDP |
---|---|---|---|
定义 | 无记忆的随机过程,也就是一系列具有Markov性质的状态 | 具有价值的MP | 带有决策的MRP |
tuple |
|
|
|
备注 |
|
|
|
价值函数 | state-value function |
state-value function action-value function |
其中
MRP的价值函数可以用矩阵表示:
即
对于n个状态,复杂度是
MDP和MRP的价值函数略有不同,MDP增加了行动-价值函数
策略
一个策略能够完全定义智能体的行为,因此:
MDP利用bellman方程计算得到的两个价值函数(Bellman Expectation Equation):
以下分别是MRP和MDP的例子:
接下来讨论最优价值函数:
定义最优策略
通过找到最大化
Bellman Expectation Equation和Bellman Optimality Equation在后面会多次用到。