准确率 (Accuracy):
准确率是最直观的性能指标,它衡量的是模型正确分类的文档数占总文档数的比例。然而,准确率在类别不平衡的情况下可能不是最佳的评估指标。
召回率 (Recall):
召回率关注于模型识别所有正类样本的能力。它定义为真正例(TP)与实际为正类的所有样本(TP + FN)的比例。
精确度 (Precision):
精确度衡量的是模型预测为正类的样本中实际为正类的比例,即真正例(TP)与预测为正类的所有样本(TP + FP)的比例。
Fβ分数 (Fβ Score):
Fβ分数是一个综合考虑召回率和精确度的指标,通过引入一个参数β来平衡两者的重要性。F1分数是Fβ分数的一个特殊情况,当β=1时,召回率和精确度被赋予相同的重要性。
Matthews相关系数 (Matthews Correlation Coefficient, MCC):
MCC是一个考虑了混淆矩阵中所有元素的指标,它能够为不平衡的数据集提供更平衡的性能评估。
接收者操作特征曲线 (Receiver Operating Characteristic, ROC):
ROC 曲线是一个图形工具,用于评估分类模型的性能。它通过绘制真正例率(TPR)和假正例率(FPR)来展示模型在不同阈值下的性能。
ROC曲线下面积 (Area Under the ROC Curve, AUC):
AUC衡量的是ROC曲线下的整个面积,它提供了一个模型性能的总体度量,与决策阈值无关,并且对类别的先验概率不敏感。
宏平均 (Macro-Averaging) 和 微平均 (Micro-Averaging):
宏平均和微平均是在多类别分类问题中使用的两种聚合评估指标。宏平均对每个类别的指标进行简单平均,而微平均则在类别层面上对所有文档的决策进行聚合,然后输出汇总的指标。