分类模型的评价标准
混淆矩阵
混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。下面给出二分类的混淆矩阵
Predicted as Positive | Predicted as Negative | |
---|---|---|
Labeled as Positive | True Positive(TP) | False Negative(FN) |
Labeled as Negative | False Positive(FP) | True Negative(TN) |
如上表,可以将结果分为四类:
* 真正例(True Positive, TP):真实类别为正例,预测类别为正例;
* 假负例(False Negative, FN):真实类别为正例,预测类别为负例;
* 假正例(False Positive, FP):真实类别为负例,预测类别为正例 ;
* 真负例(True Negative, TN):真实类别为负例,预测类别为负例;
进一步可以推出这些指标:
* 真正率(True Positive Rate, TPR),又名灵敏度(Sensitivity):正样本预测结果数 / 正样本实际数,即:
* 假负率(False Negative Rate, FNR):被预测为负的正样本数/正样本实际数,即:
* 假正率(False Positive Rate, FPR):被预测为正的负样本数/负样本实际数,即:
* 真负率(True Negative Rate, TNR),特异度(Specificity):负样本预测结果数/负样本实际数,即:
进一步,由混淆矩阵可以计算以下评价指标:
准确率(Accuracy):分类正确的样本数/所有样本数量,即:
平均准确率(Average per-class accuracy):每个类别下的准确率的算术平均,即:
错误率:分类错误的样本/所有样本的数量,即:
精确率和召回率
精确率,又称查准率(Precision):正样本的预测数/被预测为正样本的数量(注意:精确率和准确率不同),即: ;挑出的西瓜中有多少比例是好瓜
召回率(Recall)又称查全率:分类正确的正样本个数占正样本个数的比例,即: ;所有好瓜中有多少比例被挑出来。
分析:查准率和查全率是一对矛盾的度量。
若要让查准率比较高,则只挑最有把握的瓜,则难免会漏掉不少好瓜,查全率较低;若要查全率比较高,则通过增加选瓜的数量来实现,若全部瓜都参选,则查全率最高,此时,查准率较低;
应用:在推荐系统中,为了少打扰用户,则查准率比较高;在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,则查全率比较高。
F1-Score
在介绍F1-Score之前,首先介绍调和平均值,调和平均值为:总体各统计量的倒数的算术平均数的倒数;
度量的一般形式——
能够表达对查询率 和查询率的不同偏好:
其中, 时,查全率更有影响; 时,退化为标准的 ; 时,查准率更有影响。
F1值的一般形式为查询率和查全率的调和均值。
ROC和AUC
ROC曲线的横轴为“假正例率”,纵轴为“真正例率”。
AUC为ROC曲线下的面积。
应用
在测试集中,正负样本的分布变化的时候,ROC曲线能够保持不变。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654
Kappa系数
Kappa系数用于一致性检验,Kappa计算结果为[-1, 1],但通常kappa是落在0~1之间,可分为五组表示不同级别的一致性。
大小 | 一致性程度 |
---|---|
0.0 ~ 0.20 | 极低的一致性 |
0.21 ~ 0.40 | 一般的一致性 |
0.41 ~ 0.60 | 中等的一致性 |
0.61 ~ 0.80 | 高度的一致性 |
0.81 ~ 1 | 几乎完全一致 |
公式:
其中,P_o为样本整体分类准确度
假设每一类的真实样本个数为:a_1, a_2, …, a_C;预测出来的每一类样本个数为:b_1, b_2, …, b_C;样本总个数为n
回归模型评价标准
绝对误差 MAE
均方误差MSE
均方根误差RMSE
RMSE为MSE的算术平方根
缺点:因使用平均误差,平均误差对异常值比较敏感,异常值的出现,使得RMSE的误差较大。
(决定系数)
- 数学理解:分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,两者相除可以消除原始数据离散程度的影响。
- 理论上取值
,正常取值范围为[0, 1]
越接近1,模型对数据拟合的越好。
越接近0,表明模型拟合的越差。 - 缺点:
数据集的样本越大, 越大。不同数据集的模型结果比较会有一定的误差。
Adjusted R-Square(校正决定系数)
n为样本数量,p为特征数量
消除了样本数量和特征数量的影响。
参考资料:
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2:https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa:https://blog.csdn.net/xtingjie/article/details/72803029