机器学习评价指标

分类模型的评价标准

混淆矩阵

混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。下面给出二分类的混淆矩阵

	Predicted as Positive	Predicted as Negative
Labeled as Positive	True Positive(TP)	False Negative(FN)
Labeled as Negative	False Positive(FP)	True Negative(TN)

如上表，可以将结果分为四类：
* 真正例(True Positive, TP)：真实类别为正例，预测类别为正例；
* 假负例(False Negative, FN)：真实类别为正例，预测类别为负例；
* 假正例(False Positive, FP)：真实类别为负例，预测类别为正例；
* 真负例(True Negative, TN)：真实类别为负例，预测类别为负例；

进一步可以推出这些指标：
* 真正率(True Positive Rate, TPR)，又名灵敏度(Sensitivity)：正样本预测结果数 / 正样本实际数，即： $T P R = \frac{T P}{T P + F N}$
* 假负率(False Negative Rate, FNR)：被预测为负的正样本数/正样本实际数，即： $F N R = \frac{F N}{T P + F N}$
* 假正率(False Positive Rate, FPR)：被预测为正的负样本数/负样本实际数，即： $F P R = \frac{F P}{F P + T N}$
* 真负率(True Negative Rate, TNR)，特异度(Specificity)：负样本预测结果数/负样本实际数，即： $T N R = \frac{T N}{F P + T N}$

进一步，由混淆矩阵可以计算以下评价指标：

准确率(Accuracy)：分类正确的样本数/所有样本数量，即： $A C C = \frac{T P + T N}{T P + F N + F P + T N}$
平均准确率(Average per-class accuracy)：每个类别下的准确率的算术平均，即： $A v e_A c c = \frac{\frac{T P}{T P + F N} + \frac{T N}{T N + F P}}{2}$
错误率：分类错误的样本/所有样本的数量，即： $E r r o r = \frac{F N + F P}{T P + F N + F P + T N}$

精确率和召回率

精确率，又称查准率(Precision)：正样本的预测数/被预测为正样本的数量（注意：精确率和准确率不同），即： $P = \frac{T P}{T P + F P}$ ;挑出的西瓜中有多少比例是好瓜
召回率(Recall)又称查全率：分类正确的正样本个数占正样本个数的比例，即： $R = \frac{T P}{T P + F N}$ ；所有好瓜中有多少比例被挑出来。

分析：查准率和查全率是一对矛盾的度量。
若要让查准率比较高，则只挑最有把握的瓜，则难免会漏掉不少好瓜，查全率较低；若要查全率比较高，则通过增加选瓜的数量来实现，若全部瓜都参选，则查全率最高，此时，查准率较低；
应用：在推荐系统中，为了少打扰用户，则查准率比较高；在逃犯信息检索系统中，更希望尽可能少漏掉逃犯，则查全率比较高。

F1-Score

在介绍F1-Score之前，首先介绍调和平均值，调和平均值为：总体各统计量的倒数的算术平均数的倒数；

$F_{1}$ 度量的一般形式—— $F_{β}$ 能够表达对查询率和查询率的不同偏好：

F_{β} = \frac{(1 + β^{2}) * P * R}{(β^{2} * P) + R}

其中，

β > 1

时，查全率更有影响；

β = 1

时，退化为标准的

F_{1}

；

β < 1

时，查准率更有影响。

F1值的一般形式为查询率和查全率的调和均值。
$\frac{2}{F_{1}} = \frac{1}{P} + \frac{1}{R}$

ROC和AUC

ROC曲线的横轴为“假正例率”，纵轴为“真正例率”。
AUC为ROC曲线下的面积。
应用
在测试集中，正负样本的分布变化的时候，ROC曲线能够保持不变。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654

Kappa系数

Kappa系数用于一致性检验，Kappa计算结果为[-1, 1]，但通常kappa是落在0~1之间，可分为五组表示不同级别的一致性。

大小	一致性程度
0.0 ~ 0.20	极低的一致性
0.21 ~ 0.40	一般的一致性
0.41 ~ 0.60	中等的一致性
0.61 ~ 0.80	高度的一致性
0.81 ~ 1	几乎完全一致

公式： $k a p p a = \frac{P_{o} - P_{e}}{1 - P_{e}}$
其中，P_o为样本整体分类准确度
假设每一类的真实样本个数为：a_1, a_2, …, a_C；预测出来的每一类样本个数为：b_1, b_2, …, b_C；样本总个数为n

P_{e} = \frac{a_{1} * b_{1} + a_{2} * b 2 + . . . + a_{C} * b_{C}}{n * n}

回归模型评价标准

绝对误差 MAE

M S E = \frac{1}{m} \sum_{i = 1}^{m} | f (x_{i}) - y_{i} |

均方误差MSE

M S E = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}

均方根误差RMSE

RMSE为MSE的算术平方根

R M S E = \sqrt{M S E}

缺点：因使用平均误差，平均误差对异常值比较敏感，异常值的出现，使得RMSE的误差较大。

$R^{2}$ (决定系数)

R^{2} = 1 - \frac{\sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}}{\sum_{i = 1}^{m} (f (x_{i}) - \bar{y_{i}})^{2}}

数学理解：分母理解为原始数据的离散程度，分子为预测数据和原始数据的误差，两者相除可以消除原始数据离散程度的影响。
理论上取值 $(- \infty, 1]$ ，正常取值范围为[0, 1]
越接近1，模型对数据拟合的越好。
越接近0，表明模型拟合的越差。
缺点：
数据集的样本越大， $R^{2}$ 越大。不同数据集的模型结果比较会有一定的误差。

Adjusted R-Square(校正决定系数)

$R^{2}$ $_a d j u s t e d = 1 - \frac{(1 - R^{2}) (n - 1)}{n - p - 1}$
n为样本数量，p为特征数量
消除了样本数量和特征数量的影响。
参考资料：
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2：https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa：https://blog.csdn.net/xtingjie/article/details/72803029

秒客网

机器学习评价指标

分类模型的评价标准

混淆矩阵

精确率和召回率

F1-Score

ROC和AUC

Kappa系数

回归模型评价标准

绝对误差 MAE

均方误差MSE

均方根误差RMSE

$R^{2}$ (决定系数)

Adjusted R-Square(校正决定系数)

相关文章

机器学习评价指标

分类模型的评价标准

混淆矩阵

精确率和召回率

F1-Score

ROC和AUC

Kappa系数

回归模型评价标准

绝对误差 MAE

均方误差MSE

均方根误差RMSE

R2 R 2 (决定系数)

Adjusted R-Square(校正决定系数)

相关文章

$R^{2}$ (决定系数)