AdaBoost集成学习算法理论解读以及公式为什么这么设计?

本文致力于阐述AdaBoost基本步骤涉及的每一个公式和公式为什么这么设计。
AdaBoost集成学习算法基本上遵从Boosting集成学习思想，通过不断迭代更新训练样本集的样本权重分布获得一组性能互补的弱学习器，然后通过加权投票等方式将这些弱学习器集成起来得到性能较优的集成模型。

图1：Boosting集成算法思想。
下面以二分类任务(标签不是为-1，就是为+1)为例介绍该算法的具体过程。值得注意的是，下面的公式推导是以二分类任务下得出来，所以公式(比如样本权重更新公式)才会显得比较整洁，但如果换成其他任务，如多分类，那么公式会复杂很多。
对于训练样本集

D={\left(x_1,y_1\right),\left(x_2,y_2\right),\ldots,(x_n,y_n)}

，其中标签

y_i\in\left\{-1,+1\right\}

，由AdaBoost集成学习算法构造集成模型的基本步骤如下：
（1）令

i = 1

并设定弱学习器的数目m。对应第一次迭代，使用均匀分布初始化训练样本集的权重分布，令

n

维向量

\mathbf{w}^i

表示第

i

次需更新的样本权重，则有：

\mathbf{w}^1=\left(w_{11},w_{12},\ldots,w_{1n}\right)^T=\left(\frac{1}{n},\frac{1}{n},\ldots,\frac{1}{n}\right)^T

（2）使用权重分布为

\mathbf{w}^i

，此时

i = 1

的训练样本集

D_i

学习得到第

i

个弱学习器

L_i

；
（3）计算

L_i

在训练样本集

D_i

上的分类错误率

e_i

：

e_i=\sum_{k=1}^{n}{w_{ik}I \left(L_i\left(X_k\right)\neq y_k\right) }

（4）确定弱学习器

L_i

的组合权重

\alpha_i

(

\alpha_i

在最后得到最终的集成模型上用到)。由于弱学习器

L_i

的权重取值应与其分类性能相关，对于分类错误率

e_i

越小的

L_i

，则其权重

\alpha_i

应该越大，故有：

\alpha_i=\frac{1}{2}\text{ln}\frac{1-e_i}{e_i}=\frac{1}{2}\text{ln}(\frac{1}{e_i}-1)

可能会有人会为，为什么要这么设计

\alpha_i

？我在下面给出了解释。
（5）(重点)依据弱学习器

L_i

对训练样本集

D_i

的分类错误率

e_i

更新样本权重，样本权重更新公式为：

w_{i+1,j}=\frac{w_{ij}\exp(-\alpha_iy_kL_i(x_k))}{Z_i}

其中：

Z_i=\sum_{k=1}^{n}{w_{ij}\exp(-\alpha_iy_kL_i(X_k))}

秒客网