1.基本概念
state:当前环境的状态+agent自身的状态,是一个随机变量,受到环境的影响
policy:根据当前state给出相应action的概率
State transition:在给定state,action下,环境给出下一个state的概率
return:回报,表示从t时刻开始未来所有回报的折扣累积,是一个随机变量,随机性来自于未来所有state和action
Action-value function:跟policy ,t时刻state和action有关,是对未来回报的一个期望
state-value function:是对action求期望,表示使用此时policy时当前状态是好是坏
2.基于价值的强化学习
Q是一个指标:判断一个agent在state下采取不同action的好坏,
2.1DQN方法
使用神经网络去给输出state下的不同action的概率得分,agent选择得分最高的动作来执行
w:代表了神经网络中的权重,输入state付出不同action的得分
如何更新网络中参数呢,一般采用temporal difference learning即TD算法
NYC-----> DC --- ->ATL :表示三个地点,从NYC到DC,再到ATL
表示未来回报折扣累积和,是对t时刻开始对未来回报的一个估计
TD算法的流程如下:
3.基于策略的强化学习
策略函数的定义:是一个概率密度函数,输出所有action的选择概率
方法1:使用NN去近似,即
是神经网络中的权重参数,需要学出来(策略梯度上升)
summary
4.action-critic methods
构建value network和policy network网络,通过环境给的奖励来学习这两个网络
4.1 policy network:Actor
4.2 value network:critic
4.3训练这两个网络
使用TD算法来更新价值网络
使用策略梯度来更新策略网络
5.Model-free prediction
Evaluate the state value without knowing the MDP Model ,but only interacting with the environment
TD和MC的对比
TD的延伸
Bootstrapping and Sampling for DP, MC and TD
bootstrap:意思就是借助以前经验估计值
Unified View of Reinforcement Learning