一、统计学习
1.统计学习的特点
- 以数据为研究对象,目的是对数据进行预测和分析,以方法为中心构建模型进行预测和分析。
- 统计学习就是计算机通过运用数据及统计方法提高系统性能的机器学习。
2.统计学习的对象
- date:数字、文字、图像、视频、音频数据以及它们的组合
- 对数据的基本假设:同类数据具有一定的统计规律性
3.统计学习的目的
- 用于对数据进行预测和分析
4.统计学习方法
- 分类:Supervised learning、Unsupervised learning、 Semi-supervised learning、Reinforcement learning
- Supervised learning:训练数据 training data->模型 model即假设空间 hypothesis-> 评价准则 evaluation criterion即策略 strategy->算法 algorithm
- 统计学习方法三要素:模型(model)、策略(stratage)、算法(algorithm)
二、监督学习
1.基本概念
- Instance,feature vector,feature space
- 输入实例x的特征向量:
x
=(
x
1
,
x
2
,...,
x
i
,...,
x
n
)
T
- 输入多个变量的第i个:
x
i
=(
x
i
1
,
x
i
2
,...,
x
in
)
T
- 训练集:
T
=((
x
1
,
y
1
),(
x
2
,
y
2
),...,(
x
N
,
y
N
))
- 输入变量X和输出变量Y:回归问题、分类问题、标注问题
2.联合概率分布
- 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)
- P(X,Y)为分布函数或分布密度函数
- 对于学习系统来说,联合概率分布是未知的
- 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的
3.假设空间
- 监督学习目的是学习一个由输入到输出的映射,称为模型
- 模式的集合就是假设空间(hypothesis space)
- 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)
4.问题的形式化
-训练集:
T
=((
x
1
,
y
1
),(
x
2
,
y
2
),...,(
x
N
,
y
N
));
in
(
x
i
,
y
i
),
i
=1,2,...,
N
三、统计学习三要素
方法=模型+策略+算法
1.模型
F为假设空间,有以下几种定义:
- 决策函数的集合:
F
=(
f
∣
Y
=
f
(
X
))
- X,Y是定义在输入空间X和输出空间Y上的变量,F是由一个参数向量决定的函数族:
F
=(
f
∣
Y
=
f
n
(
X
))
- 条件概率的集合:
F
=(
P
∣
P
(
Y
∣
X
))
- X,Y是定义在输入空间X和输出空间Y上的随机变量,条件概率分布族
F
=(
P
∣
P
n
(
Y
∣
X
))
参数向量n是N维欧式空间R_N,也称参数空间
2.策略
- 损失函数:一次预测的好坏
- 风险函数:平均意义下模型预测的好坏
- 0-1 loss function:
L
(
Y
,
f
(
X
))=1,
Y
!=
f
(
X
);
L
(
Y
,
f
(
X
))=0,
Y
=
f
(
X
)
- quadratic loss function:
L
(
Y
,
f
(
X
))=(
Y
−
f
(
X
))
2
- absolute loss function:
L
(
Y
,
f
(
X
))=∣
Y
−
f
(
X
)∣
- logarithmic loss function or oglikelihood loss function
L
(
Y
,
P
(
Y
∣
X
))=−
logP
(
Y
∣
X
)
- 策略:经验风险最小化ERM与结构风险最小化
- 当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”
- structure risk minimization为防止过 拟合提出的策略,等价于正则化(regularization),加入正则化项regularizer,或罚项 penalty term.
3.算法
- 如果最优化问题有显式的解析式,算法比较简单
- 但通常解析式不存在,就需要数值计算的方法
四、模型评估与模型选择
- 训练误差,训练数据集的平均损失
- 测试误差,测试数据集的平均损失
- 过拟合:学习时选择模型所包含的参数过多,以致于出现这一模型对已知数据预测的u很好,但对未知数据预测很差的现象。
- 模型选择:训练数据本身存在噪声,因此不仅要考虑对已知数据的预测能力,还要考虑对未来数据的预测能力。
- 一般随着多项式拟合函数中多项式次数的增加,训练误差会减小,直至趋向0;测试误差则是先减小后增大。对于一般模型也是如此。
五、正则化与交叉验证
1.正则化
- Occam's razor原理:在所有选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
2.交叉验证
- training set: 用于训练模型
- validation set: 用于模型选择
- test set: 用于最终对学习方法的评估
- 简单交叉验证:首先随机地将数据分为两部分——训练集(70%)和测试集(30%);然后用训练集在各种条件下训练得到不同的模型,在测试集上评价各个模型的测试误差,选择测试误差最小的模型。
- S折交叉验证:首先随机地将数据分为S个互不相交的大小相同的子集,然后利用S−1个子集的数据进行训练,用剩下的子集进行测试;重复上述过程,最后选出S次测试中平均测试误差最小的模型。
- 留一交叉验证:S折交叉验证特殊情况是S=N,称为留一交叉验证(leave-one cross validation),往往在数据缺乏的情况下使用。
六、泛化能力
- 泛化能力就是指该方法学习到的模型对未知数据的预测能力
- 泛化误差:如果学到的模型是f^,那么用这个模型对未知数据预测的误差即为泛化误差(generalization error)
- 泛化误差反映了学习方法的泛化能力,泛化误差就是所学习到的模型的期望风险;
- 泛化误差上界:学习方法的泛化能力分析往往是通过研究误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋向于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
七、生成模型和判别模型
生成方法:
由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型;
判别方法:
由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
生成方法的特点:
- 生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;
- 生成方法的收敛速度更快,当存在隐变量时,仍可以使用生成方法,此时判别方法不可用。
判别方法的特点:
- 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;
- 由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
八、分类问题
- 分类问题:在监督学习中,当输出变量Y取有限个离散值时,预测问题便称为分类问题;
- 分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数;
- 分类(classification):分类器对新的输入进行输出的预测(prediction);
- 精确率的定义为P=TP/(TP+FP),召回率的定义为R=TP/(TP+FN),F1值是精确率和召回率的调和均值,公式为F1=2PR/(P+R)。精确率和召回率都高时,F1值也会高。
九、标注问题
- 标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
- 标注问题分为学习和标记过程。学习系统基于训练数据集构建一个模型,表示为条件概率,标注系统按照学习到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。
- 标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。
十、回归问题
- 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归模型正是表示从输入变量到输出变量之间的映射的函数。回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好的预测未知数据。
- 回归问题分为学习和预测两个过程。学习系统基于训练数据构建一个模型,预测系统根据学习的模型确定相应的输出。
- 按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,此情况下回归问题可以用最小二乘法求解。