模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)

时间:2024-04-02 16:31:35

模型评估指标,是对已训练好的模型性能进行评估的重要依据。机器学习的任务无非分为分类问题和连续型预测问题(回归问题)。

本文只列出常用的模型评估指标,没有细讲各指标的含义和示例,后期会逐步完善,望大家见谅。

分类型问题主要有:混淆矩阵、准确率(Accuracy)、召回率(Recall)、特效性(specificity)、精确率(Precision)、F值(F-Measure)、ROC曲线和AUC值。

连续性问题主要有:平均百分比误差、误差平方和以及回归模型的拟合优度。
1. 分类型

  1. 变量解释
指标 说明
TP 真正,即真实值和预测值均是正样本,表示预测正确
TN 真负,即真实值和预测值均为负样本,表示预测正确
FN 假负,即真实值为正,预测值为负,表示预测错误,若正表示通过,该参数可表示误拒率
FP 假正,即真实值为负,预测值为正,表示预测错误,若正表示通过,该参数可表示误入率
  1. 混淆矩阵
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)

  2. 常见指标

    准确率(accuracy)
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
    敏感度(sensitivity)、真正例率、召回率(recall)
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
    特效性(specificity)、真负例率
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
    精度(precision)
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
    F分数(精度和召回率的调和均值)
    模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)

  3. ROC与AUC

1.ROC曲线(自己也时常搞不懂,细讲一下吧。。。)

接受者操作特征曲线(Reciver Operating Characteristic Curve,ROC),用于描述二分类系统性能(分类器阈值是变化的),反应敏感性和特异性连续变化的综合指标,ROC曲线上的点反应对同一信号刺激的感受性。

很多学习器是将预测的概率值与一个分类阈值进行比较,大于阈值就取1,小于阈值就取0。在不同应用中,我们可以根据任务需要选取不同的阈值点。ROC曲线就是从这个角度来研究学习器的泛化性能的。根据学习器预测结果(概率)对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值(纵轴:真正率TP;横轴:假正率FP),分别以它们为横轴和纵轴作图就可得到ROC曲线。具体如下:
(1)假如已经得到了所有样本的概率输出prob值,我们就可以根据每个测试样本属于正样本的概率值从大到小排序。
(2)接下来,我们从高到低,依次将prob值作为阈值(threshold),当测试样本属于正样本的概率大于或等于这个 threshold 时,我们认为它为正样本,否则为负样本。
(3)每次选取一个不同的threshold,我们就可以得到一组FP和TP,即ROC曲线上的一点。这样我们可以得到很多组FP和TP的值,将它们画在ROC曲线上。

用不同的阀值,统计出每组不同阀值下的精确率和召回率:
— 横坐标:假正率(FPR,即 1-specificity,1-真负例率)
FPR = FP /(FP + TN)
— 纵坐标:真正例率(TPR, 即 recall)
TPR = TP /(TP + FN)
模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
ROC曲线优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,因此其面积AUC值也适用于不平衡样本。

2.AUC值

曲线面积(Area Under Curve,AUC)模型评价中定义为ROC曲线下的面积,取值[0, 1],由于ROC曲线一般在y=xy=xy=x上方,因此AUC取值[0.5, 1],值越大,表明分类器效果越好。AUC三种取值:

AUC取值 描述
1 100%准确预测分类器,存在至少一个阈值可实现100%预测,实际不存在
(0.5, 1) 该情况优于随机猜测,设定合适的阈值,预测准确度高达90%
0.5 该情况和正常的猜硬币一样,没有预测价值
(0, 0.5) 比随机猜测效果还差,若反预测,则预测效果优于随机猜测

当有多个模型绘制在同一平面时,ROC曲线发生交叉时,此时根据ROC曲线下面的面积即AUC值来比较判断,即AUC最大的相对更优。

2. 连续型

1.MAPE

MAPE(mean absolute percentage error)为平均百分比误差,预测连续型数据的准确率一般指1-MAPE。
模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
2.MSE/RMSE

RMSE(root mean square error)为均方根误差,相应的MSE(mean square error)即为误差的平方和,两者含义一致,指标越小则模型效果越好。
模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
(平时我最常用的就是MSE)

3.拟合优度:是指回归直线对观测值的拟合程度(回归模型)

a.R²/可决系数

度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。R²等于回归平方和( explained sum of squares)在总平方和( total sum of squares)中所占的比率,即回归方程所能解释的因变量变异性的百分比。

模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
b.调整的R²

在模型中增加多个变量(即使是无实际意义的变量)也能小幅度提高R平方的值,因此需要考虑模型的变量数作为相应惩罚,于是得到调整的R²如下:
模型常用评估指标:分类(混淆矩阵/F1/Recall/ROC/AUC等);连续(MAPE/RMSE等)
(总结他人博客,有问题望大家指正)

参考文献

https://blog.csdn.net/hetallian/article/details/100600074
https://blog.csdn.net/Xin_101/article/details/89470588
https://blog.csdn.net/qq_34170700/article/details/106151207