【目标检测】-入门知识

时间:2024-04-15 16:12:53

1、回归与分类问题

回归问题是指给定输入变量(特征)和一个连续的输出变量(标签),建立一个函数来预测输出变量的值。换句话说,回归问题的目标是预测一个连续的输出值,例如预测房价、股票价格、销售额等。回归问题通常使用回归分析技术,例如线性回归、多项式回归、决策树回归等。

分类问题是指给定输入变量(特征)和一个离散的输出变量(标签),建立一个函数来预测输出变量的类别。换句话说,分类问题的目标是预测一个离散的输出值,例如将一张图片分为猫和狗、预测一个电子邮件是垃圾邮件还是正常邮件等。分类问题通常使用分类算法,例如逻辑回归、支持向量机、决策树分类等。

2、专业术语

2.1、bounding box 边界框

用来描述目标在图像中真实位置和范围的矩形框。它由矩形框的左上角和右下角坐标定义。

2.2、IOU交并比

intersection over union

预测区域与实际区域的交集比并集,值越大,预测越准

91be2ec98f3e46c79b26dc9450fdbf0a.png

2.3、非极大值抑制NMS

Non-Maximum Suppression

可能多个预测结果间存在重叠部分,需要保留交并比最大的、去掉非最大的预测结果。对同一个物体预测结果包含三个概率0.8/0.9/0.95,经过非极大值抑制后,仅保留概率最大的预测结果

32b2fe771b084727ba989a74ca1f63fe.png

2.4、anchor box锚框

有的(如Faster RCNN)称为anchor(锚点),有的(如SSD)称为prior bounding box(先验框)

与bounding box相比,属于候选框

遍历输入图像上所有可能的像素框,然后选出正确的目标框,并对位置和大小进行调整就可以完成目标检测任务。这些进行预测的像素框就叫锚框。为了增加任务成功的几率,通常会在同一位置设置不同宽高比的锚框

判断一个锚框是否与目标框相近的指标,利用IUO,并设置最小阈值,区分目标先验框,还是背景先验框

7ace8e4fa0864183bf3e5a3fae346322.png

先验框参数设置:尺度(scale)与宽高比(ratio)

先把原图像处理后得到7x7的feature map,再在对应的feature map中生成锚框

并画出了在中间位置的具有不同scale 和 ratio 参数的9个锚框

85c815f3da3648c389b57c69fca4419e.png

2.3、mAP平均精度均值

Mean Average Precision

衡量预测准确率指标常用  准确率( accuracy )、精确率( precision )、召回率(recall)

ccc78b7280cb4700a72f4073be99e6b7.png

(1) True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);

(2) False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数; 

(3) False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;

(4) True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数;

P代表precision,精确率表示预测样本中实际正样本数占所有正样本数的比例, = A / (A+B)

R代表recall,召回率表示预测样本中实际正样本数占所有预测的样本的比例, = A / (A+C)

AP代表Average Precision,即一个类别的平均精确度。等价于P-R曲线下的面积;

fea407ce31814ae49f4a7d4257de515b.png

 mAP是 Mean Average Precision的缩写,即均值平均精度。作为 object dection 中衡量检测精度的指标。计算公式为:mAP = 所有类别的平均精度求和/所有类别

2.4、Region proposal 候选区域

给定输入图像查找可以定位对象的所有可能位置。此阶段的输出应该是对象的可能位置的边界框列表。这些通常被称为区域提案或感兴趣的区域。为每种分类创立独立的区域大小

 

2.5、RPN 区域候选网络

Region Proposal Network。也就是“提取候选框”的意思。RPN 首次在Faster RCNN结构中提出。RPN的目标是代替Selective Search实现候选框的提取。一方面RPN耗时少,另一方面RPN很容易结合到Fast RCNN中,成为一个整体。

Faster RCNN = RPN + Fast RCNN

632db294ca0242f2889d7c3430f2015f.png

69eab0a31d2d40778b6745378c08c103.png

c63985801c4a47f38c392c1ebffc58f5.png

  1. 首先将P × Q大小的原始image缩放至固定大小M × N ;
  2. 然后将M × N 的image送入网络(备注:Conv layers中包含了13个conv层+13个relu层+4个pooling层),生成共享Feature Map
  3. 进入RPN网络,首先经过 3 × 3卷积,再分别生成positive anchors和对应bounding box regression偏移量,然后计算出proposals;
  4. 进入Roi Pooling层,利用proposals从feature maps中提取proposal feature送入后续全连接和softmax网络作classification(即分类proposal到底是什么object)。

详细参考...... 

2.6、ROI Pooling(感兴趣区域池化)

Region of interest pooling

用于目标检测任务的神经网络层,

  1. 从具有多个卷积和最大池层的深度卷积网络获得的固定大小的特征映射
  2. 表示感兴趣区域列表的N×5矩阵,其中N是RoI的数量。第一列表示图像索引,其余四列是区域左上角和右下角的坐标

一个区域建议(左上角,右下角坐标)(0,3),(7,8)

通过将其划分为(2×2)个部分(因为输出大小为2×2),提取 每个部分的最大值

ef87d214ad794fc39025d48bbed17a61.png

最后得到 

9e16a22429d248ed9607543f0684c1b6.png

2821578d9f064050afaaeacdaf15281d.gif

 

本文部分内容参考

 目标检测(Object Detection)-****博客

锚框(anchor box)/先验框(prior bounding box)概念介绍及其生成-****博客

ROI Pooling(感兴趣区域池化)-****博客