T1、偏差/方差/噪声/泛化误差---如何理解

时间:2024-03-26 13:36:37

一、概念:

插入概念:

期望:这里的期望是指数据集D的样本X通过预测模型f得到的预测值f(X,D)的预测期望。用公式可以做如下表示:

                                                              T1、偏差/方差/噪声/泛化误差---如何理解

1、偏差(bias):期望预测T1、偏差/方差/噪声/泛化误差---如何理解与真实值T1、偏差/方差/噪声/泛化误差---如何理解的误差,记为T1、偏差/方差/噪声/泛化误差---如何理解。一般可以表示为算法的拟合能力如何。

2、方差(var):同一个算法在不同数据集D的预测值f1(X;D)和所有数据集平均预测值f2(X;D)的关系,一般可以理解为算法在不同数据集的稳定性。记为:T1、偏差/方差/噪声/泛化误差---如何理解

3、噪声(noise):数据集D中的真实值与数据集中的标记值的误差,一般理解为当前学习当前学习任务的期望泛化误差的下界,即刻画了本身学习问题的难度。

记为:T1、偏差/方差/噪声/泛化误差---如何理解

4、泛化误差(generalization error):如果学到的模型f,那么用这个模型对未知数据预测的误差即为泛化误差。泛化误差主要包括三个部分:偏差,方差,噪声。

                                                      T1、偏差/方差/噪声/泛化误差---如何理解

上述公式可以这样表述:

                                 T1、偏差/方差/噪声/泛化误差---如何理解

第一项为预测值的方差;第二次为预测值的偏差;第三项为噪声即真实值与实际标记值之间的误差。

二、图形理解:

    1、偏差、方差关系可以简单如下图表示:

                                                                   T1、偏差/方差/噪声/泛化误差---如何理解                                                       

    图中红点表示真实值所在的位置,蓝点表示每次的预测值。

   2、偏差、方差、泛化误差、模型复杂度之间的关系:

                                                                   T1、偏差/方差/噪声/泛化误差---如何理解

当所建立的模型相对简单,模型拟合能力不足,预测值的偏差较大,方差较小。随着,模型的复杂程度增加,拟合能力逐步提升,偏差逐渐减小,方差增大,意味着模型对数据的稳定性降低,即数据稍微发生变化即可能产生较大的变动。

   一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variance dilemma)。图2.9给出了一个示意图。给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动逐渐被学习器学到,方法逐渐主导了泛化错误率;在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性学习器学到了则将发生过拟合。