模型评估指标,是对已训练好的模型性能进行评估的重要依据。机器学习的任务无非分为分类问题和连续型预测问题(回归问题)。
本文只列出常用的模型评估指标,没有细讲各指标的含义和示例,后期会逐步完善,望大家见谅。
分类型问题主要有:混淆矩阵、准确率(Accuracy)、召回率(Recall)、特效性(specificity)、精确率(Precision)、F值(F-Measure)、ROC曲线和AUC值。
连续性问题主要有:平均百分比误差、误差平方和以及回归模型的拟合优度。
1. 分类型
- 变量解释
指标 | 说明 |
---|---|
TP | 真正,即真实值和预测值均是正样本,表示预测正确 |
TN | 真负,即真实值和预测值均为负样本,表示预测正确 |
FN | 假负,即真实值为正,预测值为负,表示预测错误,若正表示通过,该参数可表示误拒率 |
FP | 假正,即真实值为负,预测值为正,表示预测错误,若正表示通过,该参数可表示误入率 |
-
混淆矩阵
-
常见指标
准确率(accuracy)
敏感度(sensitivity)、真正例率、召回率(recall)
特效性(specificity)、真负例率
精度(precision)
F分数(精度和召回率的调和均值) -
ROC与AUC
1.ROC曲线(自己也时常搞不懂,细讲一下吧。。。)
接受者操作特征曲线(Reciver Operating Characteristic Curve,ROC),用于描述二分类系统性能(分类器阈值是变化的),反应敏感性和特异性连续变化的综合指标,ROC曲线上的点反应对同一信号刺激的感受性。
很多学习器是将预测的概率值与一个分类阈值进行比较,大于阈值就取1,小于阈值就取0。在不同应用中,我们可以根据任务需要选取不同的阈值点。ROC曲线就是从这个角度来研究学习器的泛化性能的。根据学习器预测结果(概率)对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值(纵轴:真正率TP;横轴:假正率FP),分别以它们为横轴和纵轴作图就可得到ROC曲线。具体如下:
(1)假如已经得到了所有样本的概率输出prob值,我们就可以根据每个测试样本属于正样本的概率值从大到小排序。
(2)接下来,我们从高到低,依次将prob值作为阈值(threshold),当测试样本属于正样本的概率大于或等于这个 threshold 时,我们认为它为正样本,否则为负样本。
(3)每次选取一个不同的threshold,我们就可以得到一组FP和TP,即ROC曲线上的一点。这样我们可以得到很多组FP和TP的值,将它们画在ROC曲线上。
用不同的阀值,统计出每组不同阀值下的精确率和召回率:
— 横坐标:假正率(FPR,即 1-specificity,1-真负例率)
FPR = FP /(FP + TN)
— 纵坐标:真正例率(TPR, 即 recall)
TPR = TP /(TP + FN)
ROC曲线优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,因此其面积AUC值也适用于不平衡样本。
2.AUC值
曲线面积(Area Under Curve,AUC)模型评价中定义为ROC曲线下的面积,取值[0, 1],由于ROC曲线一般在y=xy=xy=x上方,因此AUC取值[0.5, 1],值越大,表明分类器效果越好。AUC三种取值:
AUC取值 | 描述 |
---|---|
1 | 100%准确预测分类器,存在至少一个阈值可实现100%预测,实际不存在 |
(0.5, 1) | 该情况优于随机猜测,设定合适的阈值,预测准确度高达90% |
0.5 | 该情况和正常的猜硬币一样,没有预测价值 |
(0, 0.5) | 比随机猜测效果还差,若反预测,则预测效果优于随机猜测 |
当有多个模型绘制在同一平面时,ROC曲线发生交叉时,此时根据ROC曲线下面的面积即AUC值来比较判断,即AUC最大的相对更优。
2. 连续型
1.MAPE
MAPE(mean absolute percentage error)为平均百分比误差,预测连续型数据的准确率一般指1-MAPE。
2.MSE/RMSE
RMSE(root mean square error)为均方根误差,相应的MSE(mean square error)即为误差的平方和,两者含义一致,指标越小则模型效果越好。
(平时我最常用的就是MSE)
3.拟合优度:是指回归直线对观测值的拟合程度(回归模型)
a.R²/可决系数
度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。R²等于回归平方和( explained sum of squares)在总平方和( total sum of squares)中所占的比率,即回归方程所能解释的因变量变异性的百分比。
b.调整的R²
在模型中增加多个变量(即使是无实际意义的变量)也能小幅度提高R平方的值,因此需要考虑模型的变量数作为相应惩罚,于是得到调整的R²如下:
(总结他人博客,有问题望大家指正)
参考文献
https://blog.csdn.net/hetallian/article/details/100600074
https://blog.csdn.net/Xin_101/article/details/89470588
https://blog.csdn.net/qq_34170700/article/details/106151207