统计学习方法第一章总结

时间:2020-12-16 19:27:19


1、统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析

2、统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)组成。

3、统计学习三要素:模型的假设空间(模型)、模型选择的准则(策略)、模型学习的算法(算法)。

4、监督学习有:分类问题标注问题回归问题等。

5、监督学习的模型可以是概率模型(由条件概率分布P(Y|X)表示)或非概率模型(由决策函数Y = f(X)表示)。

6、损失函数:度量模型一次预测的好坏。统计学习中常见的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。

   风险函数:度量平均意义下模型预测的好坏。

7、监督学习的两个基本策略:经验风险最小化结构风险最小化。极大似然估计就是经验风险最小化的一个例子。但是,极大似然估计是怎么样的?结构风险最小化等价于正则化,是在竟然风险上加上表示模型复杂度的正则化项或罚项。结构风险最小化是为了防止过拟合提出来的策略。贝叶斯估计中的最大后验估计就是结构风险最小化的一个例子,但是,贝叶斯估计是什么?最大后验估计又是什么?

8、预防过拟合:正则化、交叉验证。正则化的作用是选择经验风险和模型复杂度同时较小的模型。交叉验证有:简单交叉验证、S折交叉验证、留一交叉验证。

9、泛化能力:学习方法的泛化能力指由该方法学习到的模型对未知数据的预测能力。

   泛化误差:所学到模型的期望风险。

10、生成模型和判别模型:监督学习方法可以分为生成方法和判别方法,所学到的模型分别是生成模型和判别模型。

11、生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型P(Y|X) = P(Y|X)/P(X)。典型的生成模型有:朴素贝叶斯法、隐马尔可夫模型

12、判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。典型的判别模型有:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场。