统计学习:是关于计算机基于数据构建概率模型,统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下:
(1) 得到一个有限的训练数据集合;
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
(3) 确定模型选择的准则,即学习的策略;
(4) 实现求解最优模型的算法,即学习的算法;
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或分析。
统计学习:
(1)监督学习
(2)非监督学习
(3)半监督学习
(4)强化学习
监督学习:是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
监督学习从训练数据中学习模型,对测试数据进行预测,训练集通常表示为
回归问题:输入变量和输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量和输出变量均为变量序列的预测问题
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。
统计学习方法三要素:模型model,策略strategy,算法algorithm
统计学习中,首先要考虑学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数。
由决策函数表示的模型为非概率模型
由条件概率分布表示的模型为概率模型。
3.2 策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。
监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。
监督学习问题就是从假设空间F中选择模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。常用的损失函数有以下几种:
统计学习问题归结为以上的最优化问题,这样,统计学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解,这个最优化问题就比较简单,但通常这个解析解不存在,所以就需要利用数值计算的方法来求解。统计学习可以利用已有的最优化算法,也可以开发独自的最优化算法。
模型选择的典型方法是正则化,正则化的一般形式如下:
其中,第一项是经验风险,第二项是正则化项,正则化项可以取不同的形式,例如,正则化项可以是模型参数向量的范数。回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
正则化项也可以是参数向量的L1范数:
经验风险较小的模型可能较复杂,这时正则化项的值会较大,正则化的作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀原理,在所有可能的模型中,能够很好的解释已知数据并且十分简单的模型才是最好的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
模型选择的另一种方法是交叉验证,使用交叉验证的前提是数据不充足,常见的有简单交叉验证、S折交叉验证和留一交叉验证。如果数据充足,选择模型的一种简单方法是随机的将数据集分成三部分,分别为训练集、验证集和测试集,训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。如果数据不充足,可以采用交叉验证的方法来选择模型。
判别模型
该模型主要对p(y|x)建模,通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常,判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的,而且难以被扩展成无监督的。
常见的判别式模型有:
Logisticregression
Lineardiscriminant analysis
Supportvector machines
Boosting
Conditionalrandom fields
Linearregression
Neuralnetworks
生成模型
该模型对观察序列的联合概率分布p(x,y)建模,在获取联合概率分布之后,可以通过贝叶斯公式得到条件概率分布。生成式模型所带的信息要比判别式模型更丰富。除此之外,生成式模型较为容易的实现增量学习。
常见的生成式模型有:
Gaussian mixture model and othertypes of mixture model
HiddenMarkov model
NaiveBayes
AODE
LatentDirichlet allocation
RestrictedBoltzmann Machine
由上可知,判别模型与生成模型的最重要的不同是,训练时的目标不同,
生成模型的特点:
(1)生成方法可以还原出(通过贝叶斯)联合概率分布P(x,y),而判别方法不能,
(2)生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快的收敛于真实模型。
(3)当存在隐变量时,仍可以用生成方法学习,此时判别方法不能。
判别方法的特点:
(1)判别方法直接学习的是条件概率P(x|y)或决策函数,f(x),直接面对预测,往往学习的准确率更高,由于直接学习P(x|y)或f(x),可以直接对数据进行各种程度的抽象,定义特征并用特征,因此可以简化学习问题。
对于二分类问题,常关注的评价指标是精确率(precision)和召回率(recall)
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
正 负
精确率:TP/(TP+FP) 正 TP FN
召回率:TP/(TP+FN) 负 FP TN
许多统计方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
标注问题的输入是一个观测序列,输出是一个标记序列。标注问题在信息抽取、自然语言处理等领域被广泛采用。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。标注常用的统计学习方法有:隐马尔科夫模型、条件随机场。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。回归问题按照输入变量的个数分为一元回归和多元回归,按照输入变量和输出变量之间的关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以用著名的最小二乘法求解。