强化学习入门

时间:2024-03-15 07:45:59

1.基本概念

强化学习入门

state:当前环境的状态+agent自身的状态,是一个随机变量,受到环境的影响

policy:根据当前state给出相应action的概率

State transition:在给定state,action下,环境给出下一个state的概率

return:回报,表示从t时刻开始未来所有回报的折扣累积,是一个随机变量,随机性来自于未来所有state和action

Action-value function:跟policy ,t时刻state和action有关,是对未来回报的一个期望

state-value function:是对action求期望,表示使用此时policy时当前状态是好是坏

2.基于价值的强化学习

强化学习入门

Q是一个指标:判断一个agent在state下采取不同action的好坏,

2.1DQN方法

使用神经网络去给输出state下的不同action的概率得分,agent选择得分最高的动作来执行

强化学习入门

w:代表了神经网络中的权重,输入state付出不同action的得分

强化学习入门

如何更新网络中参数呢,一般采用temporal difference learning即TD算法

强化学习入门

NYC-----> DC --- ->ATL :表示三个地点,从NYC到DC,再到ATL

强化学习入门

强化学习入门表示未来回报折扣累积和,是对t时刻开始对未来回报的一个估计

强化学习入门

TD算法的流程如下:

强化学习入门

3.基于策略的强化学习

 策略函数的定义:是一个概率密度函数,输出所有action的选择概率

强化学习入门

方法1:使用NN去近似,即强化学习入门

强化学习入门是神经网络中的权重参数,需要学出来(策略梯度上升)

强化学习入门

强化学习入门

强化学习入门

强化学习入门

 

强化学习入门

强化学习入门

强化学习入门

强化学习入门

summary

强化学习入门

4.action-critic methods

构建value network和policy network网络,通过环境给的奖励来学习这两个网络

强化学习入门

4.1 policy network:Actor

强化学习入门

4.2 value network:critic

强化学习入门

4.3训练这两个网络

强化学习入门

强化学习入门

使用TD算法来更新价值网络

强化学习入门

使用策略梯度来更新策略网络

强化学习入门

强化学习入门

强化学习入门

5.Model-free prediction

Evaluate the state value without knowing the MDP Model ,but only interacting with the environment

TD和MC的对比

强化学习入门

TD的延伸

强化学习入门

Bootstrapping and Sampling for DP, MC and TD

强化学习入门

bootstrap:意思就是借助以前经验估计值

强化学习入门

强化学习入门

强化学习入门

Unified View of Reinforcement Learning 

强化学习入门