1.3统计学习三要素
方法 = 模型+策略+算法
一模型(首先考虑学习什么样的模型)
模型的假设空间包含所有可能的条件概率分布或决策函数
假设空间用F表示,假设空间可以定义为决策函数的集合:F = {f | Y = f(X)},策略函数表示的模型为非概率模型。
假设空间也可以定义为条件概率的集合:F = {P| P(Y|X)},条件概率表示的模型为概率模型。
(X和Y是定义在输入空间X 和输出空间Y)
二策略(接下来考虑按照什么样的准则学习或选择最优的模型)
1损失函数和风险函数:损失函数度量模型一次预测出的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数是f(X)(预测值)和Y(真实值)的非负实值函数,记作L(Y,f(X))
几种常用的损失函数:(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数或对数似然损失函数
总结:损失函数值越小,模型就越好
给定一个训练数据集模型f(X)关于训练数据集的平均损失称为经验风险或经验损失,记作:
ps:注意区别,期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失
2经验风险最小化与结构风险最小化(两个基本策略)
经验风险最小化的策略认为,经验风险最小的模型是最优的模型(当样本足够大时,经验风险最小化能保证有很好的学习效果,若样本容量很小时,会出现过拟合的现象)
例子极大似然估计
结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间,损失函数自己训练数据集确定的情况下,结构风险定义为
J(f)表示模型的复杂度,从公式可以看出,结构风险小的话,需要经验风险和模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测
例子最大后验概率估计