均方误差是衡量回归模型预测值与真实值之间平均平方差的指标。它通过计算预测值与真实值之差的平方的平均值来评估模型的性能。其数学公式为:
M
S
E
=
1
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
MSE = \frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2
MSE=n1i=1∑n(yi−y^i)2 其中,
n
n
n是样本数量,
y
i
y_i
yi是第
i
i
i个样本的真实值,
y
^
i
\hat{y}_i
y^i是第
i
i
i个样本的预测值。MSE的值越小,说明模型在平均意义上对数据的拟合越好,预测值与真实值之间的差异越小。
举例:假设我们正在建立一个模型来预测某地区房屋的价格。我们有一个包含100个房屋样本的数据集,其中每个样本都有对应的实际房价和模型预测房价。对于第
i
i
i个房屋,实际房价为
y
i
=
500000
y_i = 500000
yi=500000元,模型预测房价为
y
^
i
=
510000
\hat{y}_i = 510000
y^i=510000元。那么该样本的误差为
(
y
i
−
y
^
i
)
=
500000
−
510000
=
−
10000
(y_i - \hat{y}_i) = 500000 - 510000=-10000
(yi−y^i)=500000−510000=−10000元,其平方误差为
(
−
10000
)
2
=
100000000
(-10000)^2 = 100000000
(−10000)2=100000000元。对所有100个样本进行计算后,假设总平方误差为
1500000000
1500000000
1500000000元,则MSE为
1500000000
100
=
15000000
\frac{1500000000}{100}=15000000
1001500000000=15000000元。这个值反映了模型在整体上对房价预测的平均误差水平。
(二)均方根误差(RMSE)
原理
均方根误差是MSE的平方根,其数学公式为:
R
M
S
E
=
1
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
RMSE=\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}
RMSE=n1i=1∑n(yi−y^i)2 由于它与目标变量的单位相同,所以在解释模型误差时更加直观。例如,如果目标变量是房价(以元为单位),那么RMSE的单位也是元,它直接表示了模型预测值与真实值平均相差的数值大小。
MAE是预测值与真实值之差的绝对值的平均值,其计算公式为:
M
A
E
=
1
n
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
MAE=\frac{1}{n}\sum_{i = 1}^{n}|y_i - \hat{y}_i|
MAE=n1i=1∑n∣yi−y^i∣ 它通过计算绝对误差的平均值来衡量模型的性能,与MSE不同,MAE不涉及平方操作,因此对异常值的敏感性相对较低。
R
2
R^2
R2衡量了模型对数据的拟合程度,它表示因变量的变异中可以由自变量解释的比例。其计算公式为:
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
R^2 = 1 - \frac{\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i = 1}^{n}(y_i - \overline{y})^2}
R2=1−∑i=1n(yi−y)2∑i=1n(yi−y^i)2 其中,
y
‾
\overline{y}
y是真实值的平均值。
R
2
R^2
R2的取值范围是
[
0
,
1
]
[0,1]
[0,1],越接近1表示模型拟合效果越好,即模型能够解释的因变量变异越多;当
R
2
=
1
R^2 = 1
R2=1时,表示模型完全拟合数据;当
R
2
=
0
R^2 = 0
R2=0时,表示模型完全无法解释因变量的变异,等同于使用均值来预测。
特点
R
2
R^2
R2是一个相对综合的评估指标,它不仅考虑了模型的预测值与真实值之间的差异,还考虑了数据本身的变异情况。但是,
R
2
R^2
R2也有一些局限性,例如在数据集中包含无关特征时,
R
2
R^2
R2可能会高估模型的性能,而且它对于样本数量和特征数量的比例比较敏感。
应用场景与举例
场景:在回归分析中广泛应用,特别是在需要评估模型整体拟合优度的情况下。例如,在科学研究中,当我们建立一个回归模型来解释某个现象与多个因素之间的关系时,
R
2
R^2
R2可以帮助我们判断模型的解释能力。
举例:假设有一个数据集用于研究学生的考试成绩与学习时间、复习次数等因素的关系。我们建立了一个回归模型来预测考试成绩,共有50个学生样本。学生的实际考试成绩平均值为
y
‾
=
70
\overline{y} = 70