强化学习基础(二)
@(Machine Learning)
State分类
环境状态 Environment State
字面理解起来就是,用于表现环境信息数据,记号为
而即便
智能体状态 agent state
记作
这个信息用于RL算法。
同时,前面文章有讲到:
这个
多啰嗦一下就是:
Information State | Markov State
这个不确定怎么翻译为中文。不妨称作马尔可夫态。包含历史序列中所有有用的信息。
Markov性质
一个状态拥有马尔可夫性质,当且仅当:
这个数学条件概率表达式翻译成文字信息就是:
The future is independent of the past given the present.
给定现在的状态后,未来的状态将与过去无关。
用一个图示:
t时刻以后的事情将仅仅由t时刻的状态决定。
下面这句更加形象:
Once the state is known, the history maybe thrown away.
接下来会继续深入agent内部,来描述RL agent的必要组成部分。