D2Det: Towards High Quality Object Detection and Instance Segmentation

时间:2024-04-10 22:02:13

论文标题:D2Det: Towards High Quality Object Detection and Instance Segmentation
论文地址:D2Det: Towards High Quality Object Detection and Instance Segmentation.
论文代码:https://github.com/JialeCao001/D2Det

框架

D2Det方法是基于标准Faster R-CNN框架。在这里,proposed dense local regression代替了Faster R-CNN中传统的box offset regression,而分类则使用discriminative RoI pooling进行改进。整体结构如下图所示。在第一阶段,使用RPN(region proposal network);在第二阶段,我们使用两个独立的分类和回归分支。dense local regression分支用于精确定位目标,而基于disriminative RoI pooling的分类分支则对proposal的分类准确性有帮助。

D2Det: Towards High Quality Object Detection and Instance Segmentation

1、dense local regression

D2Det: Towards High Quality Object Detection and Instance Segmentation
Dense Local Regression(密集局部回归)方法将k×k维的RoI特征视为K2个空间相邻的局部特征,对K2个特征点都进行偏移量预测,其中一个局部特征如上图所示。这些局部RoI特征通过一个完全卷积的网络来预测多个局部框偏移量,称为密集框偏移量。密集框偏移量用来预测每个 ( x i , y i ) (x_{i},y_{i}) (xi,yi)位置的局部特征 p i p_{i} pi到GT框左上和右下角的距离 。下面四个变量 l l l t t t r r r b b b分别表示在左上右下四个维度上的密集盒偏移量,最后得到维度 4 × k × k 4\times k\times k 4×k×k

l i = ( x i − x l ) / w P , t i = ( y i − y t ) / h P r i = ( x r − x i ) / w P , b i = ( y b − y i ) / h P \begin{aligned} l_{i} &=\left(x_{i}-x_{l}\right) / w_{P}, \quad t_{i}=\left(y_{i}-y_{t}\right) / h_{P} \\ r_{i} &=\left(x_{r}-x_{i}\right) / w_{P}, \quad b_{i}=\left(y_{b}-y_{i}\right) / h_{P} \end{aligned} liri=(xixl)/wP,ti=(yiyt)/hP=(xrxi)/wP,bi=(ybyi)/hP
局部特征的数量取决于候选目标和GT的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这K2个局部特征中。为了处理这种情况,采用二元重合度预测来对每个局部特征进行分类:
m i = { 1 ,  if  p i ∈ G , ∀ p i ∈ P 0 ,  otherwise  m_{i} = \begin{cases}1, & \text{ if } p_{i}\in G ,& \text{} \forall p_{i}\in P\\ 0, & \text{ otherwise } \end{cases} mi={1,0, if piG, otherwise piP

2、disriminative RoI pooling

与回归不同的是,分类需要高度的区分特征。discriminative RoI pooling的灵感来自于deformable RoI pooling,并在两方面对其进行了改进。
• 首先,使用一种轻量级的偏移量预测,它需要大约四分之一的参数,与可变形RoI pooling中的标准偏移量预测相比。标准偏移量预测采用RoI Align操作从 k × k k\times k k×k 子区域中获取特征,并将这些特征通过三个完全连通的层。相反,轻量级偏移预测只需要一个 k 2 × k 2 \frac{k}{2} \times \frac{k}{2} 2k×2k大小的RoI Align,然后是完全连接的层(轻量级是因为更小的输入向量)。
• 其次在偏移量预测之后,标准的deformable RoIpooling使用一个RoI Align,在每个子区域内获得的四个采样点都被平均分配相等的权值。与此相反,本文提出的加权pooling的目的是自适应地分配更高的权值给discriminative的采样点。例如下图中的右图,不同的采样点s1~s4被赋予不同的权值w1~w4。
一个候选区域的权重RoI特征 F ~ \widetilde{F} F 通过下面的式子得到:
F ~ = W ( F ) ⊙ F \widetilde{F} = W(F) \odot F F =W(F)F
D2Det: Towards High Quality Object Detection and Instance Segmentation
这里 ⊙ \odot 是哈达玛积,注意到 W ( F ) W(F) W(F)是从F中使用卷积操作计算得到,而非是固定的权重。因此我们使用一个步长为2的平均池化对 F ~ \widetilde{F} F 操作,就得到了大小为 k × k k\times k k×k的discriminative RoI feature。可以将一个候选区域经过discriminative RoI池化后的特征看作是一个一维全局向量,因为在标准Faster R-CNN中,经过最后两个全连接层来得到候选区域的分类结果。
  经过偏移量预测和discriminative RoI pooling后,所抽取的特征很可能包含与目标和上下文都相关的判别性特征,这对进一步提高分类性能很有帮助。