第一章统计学习方法概论

这本书确实很好，一直都没有坚持学下去，真是可惜，现在每天打卡，学习一章，并做下学习笔记。

已经有人做过类似的笔记了：统计学习笔记（1）——统计学习方法概论

那我就不用求全，只需要总结框架，并把难懂的知识点重点理解。

第一章讲的基本是理论

统计学习：数据、建模、预测，全称统计机器学习；包括监督学习、无监督学习、半监督学习、强化学习。

监督学习：包括分类、标注和回归；训练集、假设空间、评价准则、测试集；三要素：模型、策略和算法。

输入空间、输出空间：输入输出变量用大写X、Y；变量所取的值用小写x，y；

特征空间：特征向量存在的空间，每一维对应一个特征，模型定义在特征空间中。

输入实例x的特征向量为（上标表示特征，下表表示实例个数）：

欧式空间：欧几里德空间，平面几何、立体几何，一般化拓展到任意维度，长度、角度、内积。

标量和矢量：链接

回归问题：

分类问题：

标注问题：是分类的推广，输入是一个观测序列，输出是一个标记序列或者状态序列。

联合概率分布：输入和输出遵循联合概率分布P(X,Y)，分布函数，是监督学习的基本假设。

假设空间：映射模型，所有可能模型的集合就是假设空间，确定了学习范围

两种模型：概率模型条件概率分布 P(Y|X)、非概率模型决策函数 Y=f(X)。决定映射关系。

小小想法：监督学习很好理解，我都给定训练集了，都有明确的评判标准了，我只需模型出来的结果和训练集的结果无限接近，此时的参数和模型就是我需要的。（会用到代价函数和梯度下降法）

模型：假设空间包含了所有可能的条件概率分布、决策函数，，。

策略：选择最优模型的准则，损失函数：模型一次预测的好坏；风险函数：平均意义下模型预测的好坏

损失函数：或者代价函数，用来度量预测错误程度，，有很多种类：0-1、平方、绝对值、对数。

风险函数：即损失函数的期望，（翻翻书吧，期望怎么求），学习的目标就是选择期望风险最小的模型。联合分布一定是未知的，所以不能用这个来选择模型。

经验风险：给定训练集，模型在训练集的平均损失为经验风险，，实际中只能根据经验风险来估计期望风险，但同时还必须要使得结构风险最小化，防止训练集过小引起的误差（过拟合）。

大数定理：

极限中心定理：

极大似然估计：等同于经验风险最小化（怎么理解）

最大后验概率估计：等价于结构风险最小化

结构风险最小化：防止过拟合，等价于正则化，，就多了一个正则化项、罚项。权衡经验风险和模型复杂度。

泛函：

算法：求解最优模型的具体的计算方法，求全局最优解问题，一般没有显式的解析解（一步求解）。

学习方法评估：基于损失函数的训练误差和模型的测试误差。

泛化能力：学习方法对位置数据的预测能力

过拟合：以为追求对训练数据的预测能力，导致模型复杂度过高（模型参数太多）。

模型选择方法：正则化和交叉验证。

正则化：结构风险最小化策略的实现，加一个正则化项。

向量范数：百度百科

奥卡姆剃刀原理：从贝叶斯估计来看，正则化项对应于模型的先验概率。

交叉验证：数据充足时，可以将数据集分为：训练集、验证集和测试集。但现实是数据往往太少，所以要重复利用数据。分为：简单交叉验证、S折交叉验证、留一交叉验证。

泛化能力：一般通过测试误差来评价，

泛化误差上界：

生成模型：由数据学习联合概率分布，然后求条件概率分布，包括朴素贝叶斯法和隐马尔科夫模型。

判别模型：由数据直接学习决策函数和条件概率分布，包括：k近邻法，感知机，决策树，逻辑斯蒂回归，最大熵，支持向量机，条件随机场

分类准确率的度量：

精确率：

召回率：

秒客网

第一章统计学习方法概论

相关文章

第一章 统计学习方法概论

相关文章

第一章统计学习方法概论