机器学习性能指标(ROC、AUC、召回率)

时间:2021-08-17 20:36:03

混淆矩阵

  1. TP(真正样本数): 预测是正样本(positive),预测正确(ture)的个数,即实际是正样本预测成正样本的样本数

  2. FN(假负样本数)

  3. TN(真负样本数)

  4. FP(假正样本数)

ROC

  1. 横轴:FPR(假正样本率)=FP/(FP+TN) 即,所有负样本中被分错的比例

  2. 纵轴:TPR(真正样本率)=TP/(TP+FN) 即,所有正样本中被分对的比例

横轴越小越好,纵轴越大越好,即,ROC曲线在斜对角线以下,则表示该分类器效果差于随机分类器,反之,效果好于随机分类器,当然,我们希望ROC曲线尽量除于斜对角线以上,也就是向左上角(0,1)凸。

AUC

ROC下的面积,即,

  1. ROC曲线反映了分类器的分类能力,结合考虑了分类器输出概率的准确性

  2. AUC量化了ROC曲线的分类能力,越大分类效果越好,输出概率越合理

  3. AUC常用作CTR的离线评价,AUC越大,CTR的排序能力越强

  • AUC = 1,代表完美分类器

  • 0.5 < AUC < 1,优于随机分类器

  • 0 < AUC < 0.5,差于随机分类器

召回率

召回率,即TPR