机器学习评价指标

时间:2022-12-07 15:27:41

分类模型的评价标准

混淆矩阵

混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。下面给出二分类的混淆矩阵

Predicted as Positive Predicted as Negative
Labeled as Positive True Positive(TP) False Negative(FN)
Labeled as Negative False Positive(FP) True Negative(TN)

如上表,可以将结果分为四类:
* 真正例(True Positive, TP):真实类别为正例,预测类别为正例;
* 假负例(False Negative, FN):真实类别为正例,预测类别为负例;
* 假正例(False Positive, FP):真实类别为负例,预测类别为正例 ;
* 真负例(True Negative, TN):真实类别为负例,预测类别为负例;

进一步可以推出这些指标:
* 真正率(True Positive Rate, TPR),又名灵敏度(Sensitivity):正样本预测结果数 / 正样本实际数,即: T P R = T P T P + F N
* 假负率(False Negative Rate, FNR):被预测为负的正样本数/正样本实际数,即: F N R = F N T P + F N
* 假正率(False Positive Rate, FPR):被预测为正的负样本数/负样本实际数,即: F P R = F P F P + T N
* 真负率(True Negative Rate, TNR),特异度(Specificity):负样本预测结果数/负样本实际数,即: T N R = T N F P + T N

进一步,由混淆矩阵可以计算以下评价指标:

  • 准确率(Accuracy):分类正确的样本数/所有样本数量,即: A C C = T P + T N T P + F N + F P + T N

  • 平均准确率(Average per-class accuracy):每个类别下的准确率的算术平均,即: A v e _ A c c = T P T P + F N + T N T N + F P 2

  • 错误率:分类错误的样本/所有样本的数量,即: E r r o r = F N + F P T P + F N + F P + T N

精确率和召回率

  • 精确率,又称查准率(Precision):正样本的预测数/被预测为正样本的数量(注意:精确率和准确率不同),即: P = T P T P + F P ;挑出的西瓜中有多少比例是好瓜

  • 召回率(Recall)又称查全率:分类正确的正样本个数占正样本个数的比例,即: R = T P T P + F N 所有好瓜中有多少比例被挑出来

分析:查准率和查全率是一对矛盾的度量。
若要让查准率比较高,则只挑最有把握的瓜,则难免会漏掉不少好瓜,查全率较低;若要查全率比较高,则通过增加选瓜的数量来实现,若全部瓜都参选,则查全率最高,此时,查准率较低;
应用:在推荐系统中,为了少打扰用户,则查准率比较高;在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,则查全率比较高。

F1-Score

在介绍F1-Score之前,首先介绍调和平均值,调和平均值为:总体各统计量的倒数的算术平均数的倒数;

F 1 度量的一般形式—— F β 能够表达对查询率 和查询率的不同偏好:

F β = ( 1 + β 2 ) P R ( β 2 P ) + R

其中, β > 1 时,查全率更有影响; β = 1 时,退化为标准的 F 1 β < 1 时,查准率更有影响。

F1值的一般形式为查询率和查全率的调和均值。
2 F 1 = 1 P + 1 R

ROC和AUC

ROC曲线的横轴为“假正例率”,纵轴为“真正例率”。
AUC为ROC曲线下的面积。
应用
在测试集中,正负样本的分布变化的时候,ROC曲线能够保持不变。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654

Kappa系数

Kappa系数用于一致性检验,Kappa计算结果为[-1, 1],但通常kappa是落在0~1之间,可分为五组表示不同级别的一致性。

大小 一致性程度
0.0 ~ 0.20 极低的一致性
0.21 ~ 0.40 一般的一致性
0.41 ~ 0.60 中等的一致性
0.61 ~ 0.80 高度的一致性
0.81 ~ 1 几乎完全一致

公式: k a p p a = P o P e 1 P e
其中,P_o为样本整体分类准确度
假设每一类的真实样本个数为:a_1, a_2, …, a_C;预测出来的每一类样本个数为:b_1, b_2, …, b_C;样本总个数为n

P e = a 1 b 1 + a 2 b 2 + . . . + a C b C n n

回归模型评价标准

绝对误差 MAE

M S E = 1 m i = 1 m | f ( x i ) y i |

均方误差MSE

M S E = 1 m i = 1 m ( f ( x i ) y i ) 2

均方根误差RMSE

RMSE为MSE的算术平方根

R M S E = M S E

缺点:因使用平均误差,平均误差对异常值比较敏感,异常值的出现,使得RMSE的误差较大。

R 2 (决定系数)

R 2 = 1 i = 1 m ( f ( x i ) y i ) 2 i = 1 m ( f ( x i ) y i ¯ ) 2

  • 数学理解:分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,两者相除可以消除原始数据离散程度的影响。
  • 理论上取值 ( , 1 ] ,正常取值范围为[0, 1]
    越接近1,模型对数据拟合的越好。
    越接近0,表明模型拟合的越差。
  • 缺点:
    数据集的样本越大, R 2 越大。不同数据集的模型结果比较会有一定的误差。

Adjusted R-Square(校正决定系数)

R 2 _ a d j u s t e d = 1 ( 1 R 2 ) ( n 1 ) n p 1
n为样本数量,p为特征数量
消除了样本数量和特征数量的影响。
参考资料:
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2:https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa:https://blog.csdn.net/xtingjie/article/details/72803029