深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

时间：2024-03-18 15:19:27

深度学习分类时常用到以下指标，这里做一个总结：

首先介绍一些指标的定义：

(1)若一个实例是正类，但是被预测成为正类，即为真正类(True Postive TP)

(2)若一个实例是负类，但是被预测成为负类，即为真负类(True Negative TN)

(3)若一个实例是负类，但是被预测成为正类，即为假正类(False Postive FP)

(4)若一个实例是正类，但是被预测成为负类，即为假负类(False Negative FN）

这四个部分可以构成一个混淆矩阵：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

而accuracy recall precision F1-score分别表示：

1.accuracy指的是正确预测的样本数占总预测样本数的比值，它不考虑预测的样本是正例还是负例:

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

2.recall指的是正确预测的正样本数占真实正样本总数的比值：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

3.precision指的是正确预测的正样本数占所有预测为正样本数的比值：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

4.为了能够评价不同算法的优劣，在Precision和Recall的基础上提出了F1值的概念，来对Precision和Recall进行整体评价。F1-score（均衡平均数）是综合考虑了模型查准率和查全率的计算结果，取值更偏向于取值较小的那个指标。F1的定义如下：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

5.Sensitivity，我们常说“敏感性”，Sensitivity的值越大，说明“有病的被判断为有病的”越大，“漏检”(FN)越小。也叫做TPR:True positive rate

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

6. Specificity，我们常说“特异性”,Specificity的值越大，说明“健康的被判断为健康的”的越大，“误检”(FP)越小。也叫做

TNR：True negative rate：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

接下来说一下ROC曲线及AUC：

ROC曲线：接收者操作特征曲线(receiver operating characteristic curve)，是反映敏感性和特异性连续变量的综合指标，roc曲线上每个点反映着对同一信号刺激的感受性。对于分类器或者说分类算法，评价指标主要有precision，recall，F1 score等，以及这里要讨论的ROC和AUC。下图是一个ROC曲线的示例：

深度学习分类常见评价指标：accuracy recall precision specificity sensitivity AUC ROC 曲线

横轴FPR: FP/(FP+TN)，FPR越大，预测正类中实际负类越多。

纵轴TPR：TP/(TP+FN)，Sensitivity(正类覆盖率),TPR越大，预测正类中实际正类越多。

理想目标：TPR=1，FPR=0,即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45度对角线越好，Sensitivity、Specificity越大效果越好。

在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR,TPR)，在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)。

AUC值的计算：

AUC (Area Under Curve) 被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

AUC的计算有两种方式，梯形法和ROC AUCH法，都是以逼近法求近似值，具体见wikipedia。

从AUC判断分类器（预测模型）优劣的标准：

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

相关文章

机器学习常见的几种评价指标：精确率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲线、AUC、准确率（Accuracy）

