分类器评价指标

时间:2022-12-08 09:52:36

混淆矩阵 Confusion Matrix

分类器评价指标

  1. Accuracy = (TP+TN)/(TP+FP+TN+FN) ;
  2. Precision = TP/(TP+FP); //预测对的正样本在所有预测为正的样本中的比例
  3. Recall = TP/(TP+FN); //预测对的正样本在所有真正正样本中的比例, 也叫真正类率(True Positive Rate)(TPR)
  4. F1-score = 2*Precision*Recall/(Precision + Recall);
  5. Specificity = TN/(FP+TN);
  6. ROC(Receiver Operating Characteristic)曲线由两个变量绘制,
    横坐标是负正类率(FPR),纵坐标是真正类率(TPR);
  7. AUC(Area Under Curve)为ROC曲线下的面积。

1). Sensitivity = Recall = TPR(True Positive Rate) = TP/(TP+FN);
2). FPR=FP/(FP+TN);
3). Specificity + FPR = 1.

Fb-score是准确率和召回率的调和平均
Fb=[(1+b^2)*P*R]/((b^2)*P+R),比较常用的是F1.

绘制ROC曲线:

http://www.douban.com/note/284051363/?type=like

precision与recall,前者是在预测为正的样本中的比例,后者是在真正为正的样本中的比例,别记混了,找工作可能会问到的!:)

补充: 2016-11-28

map

平均正确率均值MAP(mean average precision)

map可以由它的3个部分来理解:P,AP,MAP。

P即precision,在信息检索领域用的比较多,和precision一起出现的是recall。

对于一个查询返回了一系列文档,precision是指返回的结果中相关的文档占的比例。定义为:precision=返回结果中相关文档的数目/返回结果的数目。
recall是返回结果中相关文档占所有相关文档的比例。定义为:recall=返回结果中相关文档的数目/所有相关文档的数目。

precision只是考虑了相关文档的个数,没有考虑文档之间的序。对一个搜索引擎或推荐系统而言,返回的结果必然是有序的,而且越相关的文档排的越靠前越好。于是有了AP的概念。

对于一个有序的列表,计算AP的时候要先求出每个位置上的precision,然后对所有位置上的precision再求average。如果该位置文档是不相关的,则该位置precision=0,如果相关则计算该位置的precision。如果有4个相关文档,返回值分别排在1,2,5,8位置,则对应的precision为:1/1,2/2,3/5,4/8。那么,AP=(1/1+2/2+3/5+4/8)/4. 可见,AP是对排序位置敏感的,相关文档排序的位置越靠前,检出的相关文档的数目越多,AP值越大。

而MAP就是对所有查询的AP值求均值。