Deep Reinforcement Learning - 1. DDPG原理和算法

- Deep Reinforcement Learning - 1 DDPG原理和算法

以下用RL作为Reinforcement Learning 的简称。

背景描述

概括来说，RL要解决的问题是：让agent学习在一个环境中的如何行为动作(act)，从而获得最大的奖励值总和(total reward)。
这个奖励值一般与agent定义的任务目标关联。
agent需要的主要学习内容：第一是行为策略(action policy)，第二是规划(planning)。
其中，行为策略的学习目标是最优策略，也就是使用这样的策略，
可以让agent在特定环境中的行为获得最大的奖励值，从而实现其任务目标。

行为(action)可以简单分为：
- 连续的：如赛车游戏中的方向盘角度、油门、刹车控制信号，机器人的关节伺服电机控制信号。
- 离散的：如围棋、贪吃蛇游戏。 Alpha Go就是一个典型的离散行为agent。

DDPG是针对连续行为的策略学习方法。

如果要了解完整和系统的RL背景知识，推荐大家看R.Sutton的这本书：《Reinforcement Learning: An Introduction, by Sutton, R.S. and Barto, A.G.》

DDPG的定义和应用场景

在RL领域，DDPG主要从：PG -> DPG -> DDPG 发展而来。

先复述一下相关的基本概念：

: 在t时刻，agent观察到的环境状态，比如观察到的环境图像，agent在环境中的位置、速度、机器人关节角度等； at : 在t时刻，agent选择的行为（action），通过环境执行后，环境状态由 st转换为 st+1 ；

r(st,at)

函数: 环境在状态 st 执行行为 at

后，返回的单步奖励值；
上述关系可以用一个状态转换图来表示：
Deep Reinforcement Learning - 1. DDPG原理和算法

：是从当前状态直到将来某个状态，期间所有行为所获得奖励值的加权总和，即discounted future reward:

R t = \sum i = t T γ i - t r (s i, a i)

其中 γ叫做discounted rate, ∈[0,1]

,通常取0.99.

R.Sutton 在2000年提出的Policy Gradient 方法，是RL中，学习连续的行为控制策略的经典方法，其提出的解决方案是：
通过一个概率分布函数 πθ(st|θπ)

，来表示每一步的最优策略，在每一步根据该概率分布进行action采样，获得当前的最佳action取值；即：

a t \sim π θ (s t | θ π)

生成action的过程，本质上是一个随机过程；最后学习到的策略，也是一个随机策略(stochastic policy).

DPG
Deepmind的D.Silver等在2014年提出DPG： Deterministic Policy Gradient，即确定性的行为策略，每一步的行为通过函数μ

直接获得确定的值：

a t = μ (s t | θ μ)

这个函数 μ即最优行为策略，不再是一个需要采样的随机策略。

为何需要确定性的策略？简单来说，PG方法有以下缺陷：

即使通过PG学习得到了随机策略之后，在每一步行为时，我们还需要对得到的最优策略概率分布进行采样，才能获得action的具体值；而action通常是高维的向量，比如25维、50维，在高维的action空间的频繁采样，无疑是很耗费计算能力的；
在PG的学习过程中，每一步计算policy gradient都需要在整个action space进行积分:
$▽ θ = \int S \int A ρ (s) π θ (a | s) Q π (s, a) d a d s$

( Q,ρ

参见下面DDPG部分的概念定义.)
这个积分我们一般通过Monte Carlo 采样来进行估算，需要在高维的action空间进行采样，耗费计算能力。

如果采取简单的Greedy策略，即每一步求解 argmaxaQ(s,a)

也不可行，因为在连续的、高维度的action空间，如果每一步都求全局最优解，太耗费计算性能。

在这之前，业界普遍认为，环境模型无关(model-free)的确定性策略是不存在的，在2014年的DPG论文中，D.Silver等通过严密的数学推导，证明了DPG的存在，其数学表示参见DDPG算法部分给出的公式 (3)。

然后将DPG算法融合进actor-critic框架，结合Q-learning或者Gradient Q-learning这些传统的Q函数学习方法，经过训练得到一个确定性的最优行为策略函数。

DDPG

Deepmind在2016年提出DDPG，全称是：Deep Deterministic Policy Gradient,是将深度学习神经网络融合进DPG的策略学习方法。
相对于DPG的核心改进是：采用卷积神经网络作为策略函数μ

和 Q

函数的模拟，即策略网络和Q网络；然后使用深度学习的方法来训练上述神经网络。

Q函数的实现和训练方法，采用了Deepmind 2015年发表的DQN方法 ,即 Alpha Go使用的Q函数方法。

DDPG算法相关基本概念定义

我们以Open Gym 作为环境为例来讲解。

先复述一下DDPG相关的概念定义：

确定性行为策略μ

: 定义为一个函数，每一步的行为可以通过 at=μ(st) 计算获得。策略网络：用一个卷积神经网络对 μ函数进行模拟，这个网络我们就叫做策略网络，其参数为 θμ；

behavior policy β

: 在RL训练过程中，我们要兼顾2个e: exploration和exploit；exploration的目的是探索潜在的更优策略，所以训练过程中，我们为action的决策机制引入随机噪声：
将action的决策从确定性过程变为一个随机过程，再从这个随机过程中采样得到action，下达给环境执行.
过程如下图所示：
Deep Reinforcement Learning - 1. DDPG原理和算法

上述这个策略叫做behavior策略，用β

来表示, 这时RL的训练方式叫做off-policy.
这里与 ϵ−greedy

的思路是类似的。
DDPG中，使用Uhlenbeck-Ornstein随机过程（下面简称UO过程），作为引入的随机噪声：
UO过程在时序上具备很好的相关性，可以使agent很好的探索具备动量属性的环境。

注意：
– 这个β

不是我们想要得到的最优策略，仅仅在训练过程中，生成下达给环境的action，从而获得我们想要的数据集，比如状态转换(transitions)、或者agent的行走路径等，然后利用这个数据集去训练策略 μ，以获得最优策略。
– 在test 和 evaluation时，使用 μ，不会再使用 β

。

函数: 即action-value 函数，定义在状态 st下，采取动作 at后，且如果持续执行策略 μ的情况下，所获得的 Rt

期望值, 用Bellman 等式来定义：

Q μ (s t, a t) = E [r (s t, a t) + γ Q μ (s t + 1, μ (s t + 1))]

可以看到， Q函数的定义是一个递归表达，在实际情况中，我们不可能每一步都递归计算 Q的值，
可行的方案是通过一个函数对Bellman等式表达进行模拟。

网络：DDPG中，我们用一个卷积神经网络对 Q函数进行模拟，这个网络我们就叫做 Q网络，其参数为 θQ

。采用了DQN相同的方法。

如何衡量一个策略μ

的表现：用一个函数 J

来衡量，我们叫做performance objective，针对off-policy学习的场景，定义如下：

J β (μ) = \int S ρ β (s) Q μ (s, μ (s)) d s

= E s \sim ρ β [Q μ (s, μ (s))]

其中：

s是环境的状态，这些状态(或者说agent在环境中走过的状态路径)是基于agent的behavior策略产生的，它们的分布函数(pdf) 为ρβ

； Qμ(s,μ(s)) 是在每个状态下，如果都按照 μ策略选择acton时，能够产生的Q值。
也即， Jβ(μ) 是在 s根据 ρβ分布时， Qμ(s,μ(s))

的期望值。

训练的目标：最大化Jβ(μ)

，同时最小化 Q

网络的Loss(下面描述算法步骤时会给出)。

最优行为策略μ

的定义: 即最大化 Jβ(μ)

的策略：

μ = a r g m a x μ J (μ)

训练 μ网络的过程，就是寻找 μ网络参数 θμ的最优解的过程，
我们使用SGA(stochastic gradient ascent)的方法。

最优Q

网络定义：具备最小化的 Q

网络Loss；

训练Q

网络的过程，就是寻找 Q网络参数 θQ

的最优解的过程，我们使用SGD的方法。

DDPG实现框架和算法

online 和 target 网络

以往的实践证明，如果只使用单个”Q神经网络”的算法，学习过程很不稳定，因为Q网络的参数在频繁gradient update的同时，又用于计算Q网络和策略网络的gradient, 参见下面等式(1),(2),(3).
基于此，DDPG分别为策略网络、Q网络各创建两个神经网络拷贝,一个叫做online，一个叫做target:

策 略 网 络 {o n l i n e : μ (s | θ μ) : g r a d i e n t 更 新 θ μ t a r g e t : μ' (s | θ μ') : s o f t u p d a t e θ μ'

Q 网 络 {o n l i n e : Q (s, a | θ Q) : g r a d i e n t 更 新 θ Q t a r g e t : Q' (s, a | θ Q') : s o f t u p d a t e θ Q'

在训练完一个mini-batch的数据之后，通过SGA/SGD算法更新online网络的参数，然后再通过soft update算法更新 target 网络的参数。soft update是一种running average的算法：

s o f t u p d a t e : τ 一 般 取 值 0.001 {θ Q' \leftarrow τ θ Q + (1 - τ) θ Q' θ μ' \leftarrow τ θ μ + (1 - τ) θ μ'

优点：target网络参数变化小，用于在训练过程中计算online网络的gradient，比较稳定，训练易于收敛。
代价：参数变化小，学习过程变慢。

DDPG实现框架，如下图所示：
Deep Reinforcement Learning - 1. DDPG原理和算法

DDPG算法流程如下：

初始化actor\critic的 online 神经网络参数: θQ

和 θμ；
将online网络的参数拷贝给对应的target网络参数： θQ′←θQ,θμ′←θμ ;
初始化replay memory buffer R

;
for each episode:
   初始化UO随机过程；
   for t = 1, T:
   下面的步骤与DDPG实现框架图中步骤编号对应：

actor 根据behavior策略选择一个 at

, 下达给gym执行该 at

a t = μ (s t | θ μ) + N t

behavior策略是一个根据当前online策略 μ 和随机UO噪声生成的随机过程, 从这个随机过程采样获得 at的值。

gym执行at

，返回reward rt 和新的状态 st+1

;

actor将这个状态转换过程(transition): (st,at,rt，st+1)

存入replay memory buffer R

中，作为训练online网络的数据集。

从replay memory buffer R

中，随机采样 N个 transition 数据，作为online策略网络、 online Q网络的一个mini-batch训练数据。我们用 (si,ai,ri，si+1)

表示mini-batch中的单个transition数据。

计算online Q网络的 gradient：
Q

网络的loss定义：使用类似于监督式学习的方法，定义loss为MSE: mean squared error：

L = 1 N \sum i (y i - Q (s i, a i | θ Q)) 2 (1)

其中， yi 可以看做”标签”：

y i = r i + γ Q' (s i + 1, μ' (s i + 1 | θ μ') | θ Q') (2)

基于标准的back-propagation方法，就可以求得L针对 θQ 的gradient： ▽θQL 。
有两点值得注意：
- yi 的计算，使用的是 target 策略网络 μ′ 和 target Q 网络 Q′,
这样做是为了Q网络参数的学习过程更加稳定，易于收敛。
- 这个标签本身依赖于我们正在学习的target网络，这是区别于监督式学习的地方。

update online Q：采用Adam optimizer更新θQ

;

计算策略网络的policy gradient：
policy gradient的定义：表示performance objective的函数 J针对 θμ的
gradient。根据2015 D.Silver 的 DPG 论文中的数学推导，在采用off-policy的训练方法时，policy gradient算法如下：

▽ θ μ J β (μ) \approx E s \sim ρ β [▽ a Q (s, a | θ Q) | a = μ (s) \cdot ▽ θ μ μ (s | θ μ)] (3)

也即，policy gradient是在 s根据 ρβ分布时， ▽aQ⋅▽θμμ 的期望值。我们用Monte-carlo方法来估算这个期望值：
在replay memory buffer中存储的(transition): (si,ai,ri，si+1), 是基于agent的behavior策略 β 产生的，它们的分布函数(pdf)为 ρβ，所以当我们从replay memory buffer中随机采样获得mini-batch数据时，根据Monte-carlo方法，使用mini-batch数据代入上述policy gradient公式，可以作为对上述期望值的一个无偏差估计 (un-biased estimate), 所以policy gradient 可以改写为：

▽ θ μ J β (μ) \approx 1 N \sum i (▽ a Q (s, a | θ Q) | s = s i, a = μ (s i) \cdot ▽ θ μ μ (s | θ μ) | s = s i) (4)

8 . update online策略网络：采用Adam optimizer更新θμ

;
9 . soft update target网络 μ′ 和 Q′

:
使用running average 的方法，将online网络的参数，soft update给target网络的参数：

s o f t u p d a t e : τ 一 般 取 值 0.001 {θ Q' \leftarrow τ θ Q + (1 - τ) θ Q' θ μ' \leftarrow τ θ μ + (1 - τ) θ μ'

end for time step
end for episode

总结一下：
actor-critic框架是一个在循环的episode和时间步骤条件下，通过环境、actor和critic三者交互，来迭代训练策略网络、Q网络的过程。

DDPG对于DPG的关键改进

使用卷积神经网络来模拟策略函数和Q函数，并用深度学习的方法来训练，证明了在RL方法中，非线性模拟函数的准确性和高性能、可收敛；
而DPG中，可以看成使用线性回归的机器学习方法：使用带参数的线性函数来模拟策略函数和Q函数，然后使用线性回归的方法进行训练。
experience replay memory的使用：actor同环境交互时，产生的transition数据序列是在时间上高度关联(correlated)的，如果这些数据序列直接用于训练，会导致神经网络的overfit，不易收敛。
DDPG的actor将transition数据先存入experience replay buffer, 然后在训练时，从experience replay buffer中随机采样mini-batch数据，这样采样得到的数据可以认为是无关联的。
target 网络和online 网络的使用，使的学习过程更加稳定，收敛更有保障。

秒客网

Deep Reinforcement Learning - 1. DDPG原理和算法