文章目录
- 第 1 章 统计学习及监督学习概论
- 1.1 统计学习
- 1.1.1 统计学习的特点
- 1.1.2 统计学习的对象
- 1.1.3 统计学习的目的
- 1.1.4 统计学习的方法
- 1.1.5 统计学习的研究
- 1.1.6 统计学习的重要性
- 1.2 统计学习的基本分类
- 1.2.1 监督学习
- 1.2.2 无监督学习
- 1.2.3 强化学习
- 1.2.4 半监督学习与主动学习
- 1.3 统计学习方法三要素
- 1.3.1 模型
- 1.3.2 策略
- 1.3.3 算法
- 1.4 模型评估与模型选择
- 1.4.1 训练误差与测试误差
- 1.4.2 过拟合与模型选择
- 1.5 正则化与交叉验证
- 1.5.1 正则化
- 1.5.2 交叉验证
- 1.6 泛化能力
- 1.7 生成模型与判别模型
- 1.8 监督学习应用
- 1.8.1 分类问题
- 1.8.2 标注问题
- 1.8.3 回归问题
- 1.9 本章概述
第 1 章 统计学习及监督学习概论
1.1 统计学习
统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型
并运用模型对数据进行预测与分析
的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
1.1.1 统计学习的特点
(1)统计学习以计算机及网络为平台
;
(2)统计学习以数据为研究对象
;
(3)统计学习的目的是对数据进行预测与分析
;
(4)统计学习以方法为中心
;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化原理及计算机科学等多个领域的交叉学科
。
1.1.2 统计学习的对象
统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
1.1.3 统计学习的目的
统计学习总的目标是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析
,同时也要考虑尽可能地提高学习效率
。
1.1.4 统计学习的方法
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习和强化学习等组成。
统计学习方法可概述如下:
(1)得到一个有限的训练数据集合
;
(2)确定包含所有可能的模型的假设空间
,即学习模型的集合;
(3)确定模型选择的准则
,即学习的策略;
(4)实现求解最优模型
的算法,即学习的算法;
(5)通过学习方法选择最优模型
;
(6)利用学习的最优模型对新数据进行预测或分析
。
1.1.5 统计学习的研究
统计学习的研究一般包含统计学习方法、统计学习理论及统计学习应用三个方面。
统计学习研究可概述如下:
(1)统计学习方法的研究旨在开发新的学习方法
;
(2)统计学习理论的研究在于探求统计学习方法的有效性和效率
,以及基本的理论问题
;
(3)统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去
。
1.1.6 统计学习的重要性
统计学习的重要性主要体现如下:
(1)统计学习是处理海量数据的有效方法
;
(2)统计学习是计算智能化的有效手段
;
(3)统计学习是计算机科学发展的一个重要部分
。
1.2 统计学习的基本分类
统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
1.2.1 监督学习
监督学习(supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
(1)输入空间、输出空间和特征空间
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特征空间:所有特征向量存在的空间
注1:输入与输出空间可以是有限元素的集合,也可以是整个欧式空间;输入空间与输出空间可以是同一个空间,也可以是不同的空间;通常输出空间远远小于输入空间。
注2:特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
(2)联合概率分布
监督学习假设输入与输出的随机变量
X
X
X和
Y
Y
Y遵循联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)。
P
(
X
,
Y
)
P(X,Y)
P(X,Y)表示分布函数,或分布密度函数。
统计学习假设数据存在一定的统计规律,训练数据与测试数据被看作是依联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)独立同分布产生的。
(3)假设空间
模型属于由输入空间到输出空间的映射的集合
,这个集合就是假设空间。假设空间也即意味着监督学习所要学习的范围。
(4)问题的形式化
监督学习分为学习和预测两个过程,由学习系统与预测系统共同完成,可以用图1.1来描述。
1.2.2 无监督学习
无监督学习(unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
无监督学习可用于对已有数据的分析
,也可用于对未来数据的预测
。它和监督学习有类似的流程,如图1.2所示。
1.2.3 强化学习
强化学习(reinforcement learning) 是指智能系统与环境的连续互动中学习最优行为策略的机器学习问题。强化学习的本质是学习最优的序贯决策。
强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的
。智能系统与环境的互动如图1.3所示。
1.2.4 半监督学习与主动学习
半监督学习(semi-supervised learning) 是指利用标注数据和未标注数据学习预测模型的机器学习问题。半监督学习旨在利用未标注数据中的信息,辅助标注数据进行监督学习,以较低的成本达到较好的学习效果。
主动学习(active learning) 是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。主动学习旨在找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
1.3 统计学习方法三要素
统计学习方法由模型、策略和算法三要素构成。
1.3.1 模型
统计学习首要考虑的问题是学习什么样的模型
。在监督学习过程中,模型就是所要学习的条件概率分布
或决策函数
。模型的假设空间包含所有可能的条件概率分布或决策函数。
1.3.2 策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型
。
(1)损失函数和风险函数
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
由于模型的输入、输出
(
X
,
Y
)
(X,Y)
(X,Y)是随机变量,遵循联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),所以损失函数的期望是:
R
e
x
p
(
f
)
=
E
p
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
(
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
)
R_{exp}(f) = E_p[L(Y,f(X))] = \int_{X×Y}(L(y,f(x))P(x,y)d_xd_y)
Rexp(f)=Ep[L(Y,f(X))]=∫X×Y(L(y,f(x))P(x,y)dxdy) 这是理论模型
f
(
X
)
f(X)
f(X)关于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)的平均意义下的损失,称为风险函数或期望损失。
实际上,联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)是未知的,因为
R
e
x
p
(
f
)
R_{exp}(f)
Rexp(f)是不能直接计算的。但根据大数定律,当样本容量
N
N
N趋于无穷时,经验风险
R
e
m
p
(
f
)
R_{emp}(f)
Remp(f)趋于期望风险
R
e
x
p
(
f
)
R_{exp}(f)
Rexp(f)。 因为很自然的一个想法,即用经验风险估计期望风险。
模型
f
(
X
)
f(X)
f(X)关于训练数据集的平均损失即为经验风险或经验损失,记作
R
e
m
p
R_{emp}
Remp:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f) = \frac 1N\sum_{i=1}^NL(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi)) 但由于现实中训练样本数目有限,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。
(2)经验风险最小化与结构风险最小化
为了求解到最优的模型,在监督学习中经常采用经验风险最小化
和结构风险最小化
这两个基本策略来选择模型。
经验风险最小化(empirical risk minimization,ERM) 的策略认为,经验风险最小的模型即最优的模型,上述问题可转化为求解如下的最优化问题:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min_{f \in F}\frac 1N\sum_{i=1}^NL(y_i,f(x_i))
f∈FminN1i=1∑NL(yi,f(xi)) 注:F是假设空间
当样本容量足够大时,经验风险最小化能保证有很好的学习效果。但是,当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合”现象。
结构风险最小化(structural risk minimization,SRM) 即为了防止过拟合
而提出的策略。其通过在经验风险基础上加上表示模型复杂度的正则化项或惩罚项,在本质上等价于正则化
。结构风险可定义如下:
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f) = \frac 1N\sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f) 注:J(f)为模型的复杂度,是定义在假设空间F上的泛函
结构风险最小化策略认为结构风险最小的模型是最优的模型,所以求最优模型就是求解最优化问题:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\min_{f \in F}\frac 1N\sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f) 综上,监督学习问题就变成了经验风险或结构风险函数的最优化问题,经验风险或结构风险的函数就是最优化的目标函数
。
1.3.3 算法
算法指学习模型的具体计算方法。由于统计学问题归结为最优化问题,统计学习的算法成为求解最优化问题
的算法。
1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型,而基于损失函数的模型训练误差(training error) 和模型测试误差(test error) 就自然成为学习方法的评估的标准。
训练误差的大小,对判断给定的问题是不是一个容易学习的问题
是有意义的,但本质上不重要。测试误差反映了学习方法对未知的测试数据集的预测能力
。通常将学习方法对未知数据的预测能力称为泛化能力。
1.4.2 过拟合与模型选择
当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型
。
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合(over-fitting)。这种现象表现为对已知数据预测得很好,但对为知数据预测得很差。
1.5 正则化与交叉验证
1.5.1 正则化
模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项
。一般具有如下形式:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\min_{f \in F}\frac 1N\sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
利用正则化进行模型选择的方法符合奥卡姆剃刀原理,即在所有可能选择的模型中,能够很好地解释已知数据并且十分简单
才是最好的模型,也就是应该选择的模型。
1.5.2 交叉验证
另一种模型选择的典型方法是交叉验证(cross validation)。它的基本思想是重复地使用数据
;把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
常见的交叉验证方法有以下三种:简单交叉验证、S折交叉验证、留一交叉验证
1.6 泛化能力
学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力
,是学习方法本质上重要的性质。
1.7 生成模型与判别模型
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。
生成方法由数据学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求出条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)作为预测的模型(生成模型),之所以被称之为生成方法,是因为模型表示了给定输入
X
X
X产生输出
Y
Y
Y的生成关系。
生成方法的特点:
(1)生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y);
(2)生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
(3)生成方法适用于存在隐变量的学习。
判别方法由数据直接学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测模型(判别模型),判别方法关注于给定的输入 X X X,应该预测什么样的输出 Y Y Y。
判别方法的特点:
(1)判别方法直接学习条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 f ( X ) f(X) f(X),直接面对预测,往往学习的准确率更高
;
(2)判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8 监督学习应用
监督学习的应用主要在三个方面:分类问题、标注问题和回归问题。
1.8.1 分类问题
输入变量为有限个离散变量的预测问题
称为分类问题。其表示如图1.10所示。
1.8.2 标注问题
输入变量与输出变量均为变量序列的预测问题
称为标注问题。其表示如图1.11所示。
1.8.3 回归问题
输入变量与输出变量均为连续变量的预测问题
称为回归问题。其表示如图1.12所示。
1.9 本章概述
1.统计学习或机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、无监督学习和强化学习。
2.统计学习方法三要素 —— 模型、策略、算法,对理解统计学习方法起到提纲挈领地作用。
3.监督学习可以概述如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。
5.分类问题、标注问题和回归问题都是监督学习的重要问题。