深度学习之基础篇:凸学习问题

时间:2024-03-29 16:35:37

简介

深度学习中,凸优化的重要性不言而喻。为了更好的理解凸优化,这里对凸学习问题、凸性及相关性质做一个简单总结:
深度学习之基础篇:凸学习问题

这里我们依次来了解其中各个性质。

基本概念

1. 凸集

定义:设C是向量空间中的一个集合,若对C中任意两点u和v,连接他们的线段仍在C中,那么集合C是一个凸集。
也即,对任一实数α∈[0, 1],都有

αu+(1-α)v∈C

深度学习之基础篇:凸学习问题
图片引用自我爱机器学习

根据定义,图1中左图为凸集,右图为非凸集。

2. 凸函数

定义:设C是一个凸集,如果对任意的u,v∈C及α∈[0, 1],函数f:C→R满足

f(αu + (1-α)v) ≤ αf(u) + (1-α)f(v)

则称f为C上的凸函数。
性质1: 凸函数的每一个局部极小值也是全局极小值。
性质2: 对于凸可微函数,有:

∀u, f(u) ≥ f(w) + <▽f(w), u-w>

性质一,通过任意小的α构造u和u+α(v-u)数据同一局部域中,再结合凸函数定义即可证明。
性质二,通过偏导的定义,令α→0,再结合凸函数定义即可证明。
证明过程就不再赘述。

引理:设f:R→R是一个二阶可微的标量函数,则下列命题等价:

  • f是凸的。
  • f的一阶导是单调不减的。
  • f的二阶导是非负的。

3. 利普希茨性

定义:设C∈Rd, f:Rd→Rk,如果对于任意的w1,w2∈C, 有

||f(w1) - f(w2)|| ≤ ρ|| w1-w2 ||

那么, f是ρ-利普希茨的。
直观的讲,利普希茨函数变化不会太快。
对于可微函数,由中值定理可知

f(w1) - f(w2) = f’(u)(w1-w2)

其中u位于w1,w2之间,若f的导数绝对值处处以 ρ为界,则函数f是 ρ-利普希茨的。

4. 光滑性

定义:如果可微函数f:Rd→R的梯度是ρ-利普希茨的,即对于所有的v,w满足||▽f(v) - ▽f(w)|| ≤ ρ|| v-w ||,那么f是ρ-光滑。
如果一个函数既凸又光滑时,我们可以同时得到函数与其一阶近似差值的上下界,这种函数也称为自有界函数。

凸学习问题

定义:如果假设类H凸集,且对于任意的z∈样本集Z损失函数L凸函数,那么学习问题(H,Z,L)是凸的。

1. 凸学习问题的可学习性

不是Rd上所有的凸学习问题都是可学习的,还需添加一些额外的约束条件使其可学习,比如可以假设损失函数具有利普希茨性或光滑性。

2. 凸利普希茨有界学习

如果假设类H是一个凸集,且对于所有的w∈H都成立||w|| ≤ B; 对于所有的z∈Z, 损失函数是凸的且是ρ-利普希茨,则称学习问题(H,Z,L)是凸利普希茨有界的。

3.凸光滑有界学习

如果假设类H是一个凸集,且对于所有的w∈H都成立||w|| ≤ B; 对于所有的z∈Z, 损失函数是凸的,非负的且是ρ-光滑,则称学习问题(H,Z,L)是凸光滑有界的。