论文标题:D2Det: Towards High Quality Object Detection and Instance Segmentation
论文地址:D2Det: Towards High Quality Object Detection and Instance Segmentation.
论文代码:https://github.com/JialeCao001/D2Det
框架
D2Det方法是基于标准Faster R-CNN框架。在这里,proposed dense local regression
代替了Faster R-CNN中传统的box offset regression,而分类则使用discriminative RoI pooling
进行改进。整体结构如下图所示。在第一阶段,使用RPN(region proposal network);在第二阶段,我们使用两个独立的分类和回归分支。dense local regression
分支用于精确定位目标,而基于disriminative RoI pooling
的分类分支则对proposal的分类准确性有帮助。
1、dense local regression
Dense Local Regression
(密集局部回归)方法将k×k维的RoI特征视为K2个空间相邻的局部特征,对K2个特征点都进行偏移量预测,其中一个局部特征如上图所示。这些局部RoI特征通过一个完全卷积的网络来预测多个局部框偏移量,称为密集框偏移量。密集框偏移量用来预测每个
(
x
i
,
y
i
)
(x_{i},y_{i})
(xi,yi)位置的局部特征
p
i
p_{i}
pi到GT框左上和右下角的距离 。下面四个变量
l
l
l、
t
t
t、
r
r
r、
b
b
b分别表示在左上右下四个维度上的密集盒偏移量,最后得到维度
4
×
k
×
k
4\times k\times k
4×k×k
l
i
=
(
x
i
−
x
l
)
/
w
P
,
t
i
=
(
y
i
−
y
t
)
/
h
P
r
i
=
(
x
r
−
x
i
)
/
w
P
,
b
i
=
(
y
b
−
y
i
)
/
h
P
\begin{aligned} l_{i} &=\left(x_{i}-x_{l}\right) / w_{P}, \quad t_{i}=\left(y_{i}-y_{t}\right) / h_{P} \\ r_{i} &=\left(x_{r}-x_{i}\right) / w_{P}, \quad b_{i}=\left(y_{b}-y_{i}\right) / h_{P} \end{aligned}
liri=(xi−xl)/wP,ti=(yi−yt)/hP=(xr−xi)/wP,bi=(yb−yi)/hP
局部特征的数量取决于候选目标和GT的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这K2个局部特征中。为了处理这种情况,采用二元重合度预测来对每个局部特征进行分类:
m
i
=
{
1
,
if
p
i
∈
G
,
∀
p
i
∈
P
0
,
otherwise
m_{i} = \begin{cases}1, & \text{ if } p_{i}\in G ,& \text{} \forall p_{i}\in P\\ 0, & \text{ otherwise } \end{cases}
mi={1,0, if pi∈G, otherwise ∀pi∈P
2、disriminative RoI pooling
与回归不同的是,分类需要高度的区分特征。discriminative RoI pooling的灵感来自于deformable RoI pooling,并在两方面对其进行了改进。
• 首先,使用一种轻量级的偏移量预测,它需要大约四分之一的参数,与可变形RoI pooling中的标准偏移量预测相比。标准偏移量预测采用RoI Align操作从
k
×
k
k\times k
k×k 子区域中获取特征,并将这些特征通过三个完全连通的层。相反,轻量级偏移预测只需要一个
k
2
×
k
2
\frac{k}{2} \times \frac{k}{2}
2k×2k大小的RoI Align,然后是完全连接的层(轻量级是因为更小的输入向量)。
• 其次在偏移量预测之后,标准的deformable RoIpooling使用一个RoI Align,在每个子区域内获得的四个采样点都被平均分配相等的权值。与此相反,本文提出的加权pooling的目的是自适应地分配更高的权值给discriminative的采样点。例如下图中的右图,不同的采样点s1~s4被赋予不同的权值w1~w4。
一个候选区域的权重RoI特征
F
~
\widetilde{F}
F
通过下面的式子得到:
F
~
=
W
(
F
)
⊙
F
\widetilde{F} = W(F) \odot F
F
=W(F)⊙F
这里
⊙
\odot
⊙是哈达玛积,注意到
W
(
F
)
W(F)
W(F)是从F中使用卷积操作计算得到,而非是固定的权重。因此我们使用一个步长为2的平均池化对
F
~
\widetilde{F}
F
操作,就得到了大小为
k
×
k
k\times k
k×k的discriminative RoI feature。可以将一个候选区域经过discriminative RoI池化后的特征看作是一个一维全局向量,因为在标准Faster R-CNN中,经过最后两个全连接层来得到候选区域的分类结果。
经过偏移量预测和discriminative RoI pooling后,所抽取的特征很可能包含与目标和上下文都相关的判别性特征,这对进一步提高分类性能很有帮助。