强化学习基础(二)

时间:2022-10-14 10:19:37

强化学习基础(二)

@(Machine Learning)

State分类

环境状态 Environment State

字面理解起来就是,用于表现环境信息数据,记号为 Set 。统通常来说, Set 是agent不可见的。

而即便 Set 可见,它包含的信息对于agent来说有些也是无关的。

智能体状态 agent state

记作 Sat ,用于内在表示agent处于的状态。

这个信息用于RL算法

同时,前面文章有讲到:

St=f(Ht)

这个 St 就是这里的 Sat .

多啰嗦一下就是:

Sat=f(Ht)

Information State | Markov State

这个不确定怎么翻译为中文。不妨称作马尔可夫态。包含历史序列中所有有用的信息

Markov性质

一个状态拥有马尔可夫性质,当且仅当:

P[St+1|St]=P[St+1|S1,S2,...,St]

这个数学条件概率表达式翻译成文字信息就是:

The future is independent of the past given the present.
给定现在的状态后,未来的状态将与过去无关。

用一个图示:

H1:tStHt+1:

t时刻以后的事情将仅仅由t时刻的状态决定。 St 像是阻断了过去,仿佛是过去心不可得,活在当下咯。

下面这句更加形象:

Once the state is known, the history maybe thrown away.

接下来会继续深入agent内部,来描述RL agent的必要组成部分。