一、概念:
插入概念:
期望:这里的期望是指数据集D的样本X通过预测模型f得到的预测值f(X,D)的预测期望。用公式可以做如下表示:
1、偏差(bias):期望预测与真实值的误差,记为。一般可以表示为算法的拟合能力如何。
2、方差(var):同一个算法在不同数据集D的预测值f1(X;D)和所有数据集平均预测值f2(X;D)的关系,一般可以理解为算法在不同数据集的稳定性。记为:。
3、噪声(noise):数据集D中的真实值与数据集中的标记值的误差,一般理解为当前学习当前学习任务的期望泛化误差的下界,即刻画了本身学习问题的难度。
记为:
4、泛化误差(generalization error):如果学到的模型f,那么用这个模型对未知数据预测的误差即为泛化误差。泛化误差主要包括三个部分:偏差,方差,噪声。
上述公式可以这样表述:
第一项为预测值的方差;第二次为预测值的偏差;第三项为噪声即真实值与实际标记值之间的误差。
二、图形理解:
1、偏差、方差关系可以简单如下图表示:
图中红点表示真实值所在的位置,蓝点表示每次的预测值。
2、偏差、方差、泛化误差、模型复杂度之间的关系:
当所建立的模型相对简单,模型拟合能力不足,预测值的偏差较大,方差较小。随着,模型的复杂程度增加,拟合能力逐步提升,偏差逐渐减小,方差增大,意味着模型对数据的稳定性降低,即数据稍微发生变化即可能产生较大的变动。
一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variance dilemma)。图2.9给出了一个示意图。给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动逐渐被学习器学到,方法逐渐主导了泛化错误率;在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性学习器学到了则将发生过拟合。