二分类问题中:
一般来说,我们希望P和R都是越高越好,然而两者是一对矛盾的度量。一个高时另一个就会偏低。常绘制P-R曲线,用曲线下的面积衡量P、R双高的的比例。
目标检测中,有两个指标AP、mAP:
AP(average precision):
假设这N个测试样本中有M个正例,首先用训练好的模型得到N个测试样本的confidence score,保存所有样本的confidence score,由高到低排列。然后依次判定top-n(1-N)为正。那么我们会得到M个recall值(1/M, 2/M, …, M/M),对于每个recall值r,该recall阈值时top-n所对应的最大precision,然后对这M个precision值取平均即得到最后的AP值。
以N=20,M=6为例:
mAP:
AP衡量的是学出来的模型在给定类别上的好坏,而mAP衡量的是学出的模型在所有类别上的好坏,就是取所有AP的平均值。
行人检测中,有两个指标:MR-FPPI曲线和MR-2:
miss rate-FPPI曲线:
假设N幅图片中,误检窗口为k,那么FPPI(false positive per image)为k/N,miss rate(1-R)取该FPPI值对应的最小miss rate。通常每幅图像的可接受误报率上限与行人密度无关,因而这比P-R曲线更可取。
(各个fppi和miss rate的得到方式与AP中得到P、R值的方式一样,也是得到所有检测框的置信度,由高到低排列,依次判断top-n为行人)。
Miss rate-FPPI曲线:按log-log scale 画
MR-2:
我们用log-average miss rate来总结探测器的性能。计算方法是在9个FPPI值下(在值域[0.01,1.0]内以对数空间均匀间隔)的平均miss rate值。从概念上讲,log-average miss rate与目标检测的AP相似,因为它们都是用一个参考值表示整个曲线。