Deep learning中的优化方法

　　三种常见优化算法：SGD（随机梯度下降），LBFGS（受限的BFGS），CG（共轭梯度法）。

1.SGD（随机梯度下降）

随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物，是一种很神奇的优化方法，属于梯度下降的一种，适用于大规模问题。

　　要想扯清楚它，还得先谈谈梯度下降。众所周知，每个优化问题都会有一个目标函数 F(w) ，梯度下降采用迭代的策略，从初始点 w0 开始，每次沿着目标函数在当前点的负梯度方向前进一段距离，即

w t + 1 = w t - η t \nabla F (w t)

只要步长

ηt ηt设置合理，就可以得到一个单调递减的序列

f(w0),f(w1),⋯ f(w0),f(w1),⋯，直至不再下降即可得到最优解

w∗ w∗。对于一般的优化问题，梯度下降可以找到局部最优解，对于凸优化问题，梯度下降可以得到全局最优解，下面我们只考虑凸优化问题。

　　考虑如下的目标函数

F (w) = E i \sim D f i (w)

其中每个

fi fi都是关于

w w的凸函数，下标

i i服从分布

D D。由期望的线性性有

\nabla F (w) = E i \sim D \nabla f i (w)

显然当

D D是取值很多的离散分布或是连续分布时，

∇F(w) ∇F(w)计算开销很大甚至根本无法计算，这个方法也就行不通了。但这样的问题在机器学习领域又很常见，比如感知机、SVM、LASSO的优化目标都可以写成如下的形式

λ Ω (w) + 1 N \sum i = 1 N L (w, x i)

其中

Ω(w) Ω(w)是关于

w w的凸正则化项，

L(w,xi) L(w,xi)是模型在样本

xi xi上的损失，这里

D D就是在

N N个离散点上概率均为

1/N 1/N的离散分布。因此为了克服梯度下降的这个弱势，随机梯度下降应运而生。

　随机梯度下降的想法很简单，就是不直接计算梯度的精确值，而是用梯度的无偏估计

∇fi(w) 代替之作为下降方向，即在 t+1 轮随机挑选出下标 i 作如下更新：

w t + 1 = w t - η t \nabla f i (w t)

那么肯定有人要问，这么简单靠谱么？可以证明在一定条件下，这样得到的序列

f(w0),f(w1),⋯ f(w0),f(w1),⋯中的最小值依期望收敛到

f(w∗) f(w∗)。具体来说，设

η t \geq 0, \sum t = 0 \infty η 2 t < \infty, \sum t = 0 \infty η t = \infty

并假设存在常数

G G满足对于任意

t,i t,i有

E[∥∇fi(wt)∥2]≤G2 E[∥∇fi(wt)∥2]≤G2及常数

R R满足

E[∥w0−w∗∥2]≤R2 E[∥w0−w∗∥2]≤R2，并记

fbest(t)=min{f(w0),⋯,f(wt)} fbest(t)=min{f(w0),⋯,f(wt)}，那么当

t→∞ t→∞时，

E[fbest(t)]→f(w∗) E[fbest(t)]→f(w∗)。

　　设 t+1 轮随机挑出的下标为 i ，那么

∥ w t + 1 - w * ∥ 2 = ∥ w t - η t \nabla f i (w) - w * ∥ 2 = ∥ w t - w * ∥ 2 - 2 η t \nabla f i (w) ⊤ (w t - w *) + η 2 t ∥ \nabla f i (w) ∥ 2

结合条件期望的线性性有

E [∥ w t + 1 - w * ∥ 2 | w t] = E [∥ w t - w * ∥ 2 | w t] - 2 η t E [\nabla f i (w) ⊤ (w t - w *) | w t] + η 2 t E [∥ \nabla f i (w) ∥ 2 | w t] = ∥ w t - w * ∥ 2 - 2 η t \nabla F (w t) (w t - w *) + η 2 t E [∥ \nabla f i (w) ∥ 2 | w t] \leq ∥ w t - w * ∥ 2 - 2 η t (F (w t) - F (w *)) + η 2 t G 2

两边同时对

wt wt取期望，由重期望公式

E [∥ w t + 1 - w * ∥ 2] \leq E [∥ w t - w * ∥ 2] - 2 η t (E [F (w t)] - F (w *)) + η 2 t G 2

重复利用该式可得

E [∥ w t + 1 - w * ∥ 2] \leq E [∥ w 0 - w * ∥ 2] - 2 \sum j = 0 t η j (E [F (w j)] - F (w *)) + G 2 \sum j = 0 t η 2 j

注意

E[∥wt+1−w∗∥2]≥0 E[∥wt+1−w∗∥2]≥0以及

E[∥w0−w∗∥2]≤R2 E[∥w0−w∗∥2]≤R2，于是

2 \sum j = 1 t η j (E [F (w j)] - F (w *)) \leq R 2 + G 2 \sum j = 0 t η 2 j

结合

E[Fbest(t)]≤E[F(wj)] E[Fbest(t)]≤E[F(wj)]可知

E [F b e s t (t)] - F (w *) \leq R 2 + G 2 \sum t j = 0 η 2 j 2 \sum t j = 1 η j

由于

∑∞t=1ηt=∞ ∑t=1∞ηt=∞，故当

t→∞ t→∞时有

E[Fbest(t)]→F(w∗) E[Fbest(t)]→F(w∗)。

　　此外，由Markov不等式知对于 ∀ϵ>0 有

P (F b e s t (t) - F (w *) \geq ϵ) \leq E [ F b e s t ( t ) - F ( w * ) ] ϵ \leq R 2 + G 2 \sum t j = 0 η 2 j 2 ϵ \sum t j = 1 η j

即当

t→∞ t→∞时有

P(Fbest(t)−F(w∗)≥ϵ)→0 P(Fbest(t)−F(w∗)≥ϵ)→0。

下面举几个机器学习里的例子，设训练集有 N 个样本 {(x1,y1),(x2,y2),…,(xN,yN)} ，于是此时 D 就是在 N 个离散点上概率均为 1/N 的离散分布，易知有

\nabla F (w) = \nabla (Ω (w) + 1 N \sum i = 1 N L (w, x i)) = 1 N \sum i = 1 N \nabla (Ω (w) + L (w, x i)) = E [\nabla (Ω (w) + L (w, x i))]

于是随机梯度下降就是每次随机选取一个样本

xi xi，以

−∇(Ω(w)+L(w,xi)) −∇(Ω(w)+L(w,xi))作为下降方向。

感知机可形式化成如下的优化问题 $min w 1 N \sum i = 1 N max {0, - y i w ⊤ x i}$ 设 t+1 轮随机挑出的样本为 (xi,yi) ，那么对应的更新公式为 $w t + 1 = w t + η t {y i x i 0 y i w ⊤ t x i < 0 o t h e r w i s e$
SVM可形式化成如下的优化问题 $min w λ 2 ∥ w ∥ 2 + 1 N \sum i = 1 N max {0, 1 - y i w ⊤ x i}$ 设 t+1 轮随机挑出的样本为 (xi,yi) ，那么对应的更新公式为 $w t + 1 = w t - η t {λ w t - y i x i λ w t y i w ⊤ t x i < 1 o t h e r w i s e$
LASSO可形式化成如下的优化问题 $min w λ ∥ w ∥ 1 + 1 N \sum i = 1 N 1 2 (w ⊤ x i - y i) 2$ 设 w=u−v 且 u≥0,v≥0 ， e 为全 1 向量，优化问题可重写为 $min u, v λ u ⊤ e + λ v ⊤ e + 1 n \sum i = 1 N 1 2 (u ⊤ x i - v ⊤ x i - y i) 2$ 设 t+1 轮随机挑出的样本为 (xi,yi) ，那么对应的更新公式为 $u t + 1 = max {0, u t - η t (λ e + (w ⊤ t x i - y i) x i)} v t + 1 = max {0, v t - η t (λ e - (w ⊤ t x i - y i) x i)}$

　　最后再提一个小技巧，以支持向量机为例，它的更新公式为

w t + 1 = (1 - λ η t) w t + η t {y i x i 0 y i w ⊤ t x i < 1 o t h e r w i s e (1)

当

x x维度很高而非零元素很少时，

+yixi +yixi可以很高效地算出来，但是第一项

(1−ληt)wt (1−ληt)wt的计算代价就有点高了，因为

w w一般来说不是稀疏的，一个小技巧就是做个变量代换

w t = u t a t

其中

αt αt是标量，于是式(

1 1)可以转化为如下只涉及标量计算和稀疏向量操作的更新过程

z t a t + 1 u t + 1 = y i u ⊤ t x i / a t = a t 1 - λ η t = u t + a t + 1 η t {y i x i 0 z t < 1 o t h e r w i s e

　　SGD优点：实现简单，当训练样本足够多时优化速度非常快。

　　SGD缺点：需要人为调整很多参数，比如学习率，收敛准则等。另外，它是序列的方法，不利于GPU并行或分布式处理。

2.L-BFGS（受限的BFGS）

L-BFGS即Limited-memory BFGS，在之前的BFGS算法中，我们可以不存储矩阵深度学习之（十一）Deep learning中的优化方法：随机梯度下降、受限的BFGS、共轭梯度法，而是存储最近次迭代

的曲率信息，即深度学习之（十一）Deep learning中的优化方法：随机梯度下降、受限的BFGS、共轭梯度法和。当完成一次迭代后，最旧的一次曲率的信息将被删除，而最新的曲率将被保存下来，所