T1、偏差/方差/噪声/泛化误差---如何理解

一、概念：

插入概念：

期望：这里的期望是指数据集D的样本X通过预测模型f得到的预测值f(X,D)的预测期望。用公式可以做如下表示：

1、偏差（bias）：期望预测 T1、偏差/方差/噪声/泛化误差---如何理解与真实值的误差，记为。一般可以表示为算法的拟合能力如何。

2、方差（var）：同一个算法在不同数据集D的预测值f1(X;D)和所有数据集平均预测值f2(X;D)的关系，一般可以理解为算法在不同数据集的稳定性。记为： T1、偏差/方差/噪声/泛化误差---如何理解。

3、噪声（noise）：数据集D中的真实值与数据集中的标记值的误差，一般理解为当前学习当前学习任务的期望泛化误差的下界，即刻画了本身学习问题的难度。

记为： T1、偏差/方差/噪声/泛化误差---如何理解

4、泛化误差（generalization error）：如果学到的模型f，那么用这个模型对未知数据预测的误差即为泛化误差。泛化误差主要包括三个部分：偏差，方差，噪声。

T1、偏差/方差/噪声/泛化误差---如何理解

上述公式可以这样表述：

T1、偏差/方差/噪声/泛化误差---如何理解

第一项为预测值的方差；第二次为预测值的偏差；第三项为噪声即真实值与实际标记值之间的误差。

二、图形理解：

1、偏差、方差关系可以简单如下图表示：

T1、偏差/方差/噪声/泛化误差---如何理解

图中红点表示真实值所在的位置，蓝点表示每次的预测值。

2、偏差、方差、泛化误差、模型复杂度之间的关系：

T1、偏差/方差/噪声/泛化误差---如何理解

当所建立的模型相对简单，模型拟合能力不足，预测值的偏差较大，方差较小。随着，模型的复杂程度增加，拟合能力逐步提升，偏差逐渐减小，方差增大，意味着模型对数据的稳定性降低，即数据稍微发生变化即可能产生较大的变动。

一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境（bias-variance dilemma）。图2.9给出了一个示意图。给定学习任务，假定我们能控制学习算法的训练程度，则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化错误率；随着训练程度的加深，学习器的拟合能力逐渐增强，训练数据发生的扰动逐渐被学习器学到，方法逐渐主导了泛化错误率；在训练程度充足后，学习器的拟合能力已非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化，若训练数据自身的、非全局的特性学习器学到了则将发生过拟合。

秒客网

T1、偏差/方差/噪声/泛化误差---如何理解

相关文章