【论文笔记】:MatrixNet

时间:2024-03-26 14:47:37

&Title

【论文笔记】:MatrixNet

&Summary

介绍了矩阵网(xNets),这是一种用于目标检测的新的深层体系结构。
xNets将具有不同大小和纵横比的对象映射到层中,其中层中对象的大小和纵横比几乎是一致的。 因此,xNets提供了比例和纵横比感知的体系结构。

XNets解决的问题:

  • 使用正方形的 Kernel 来提取不同宽高比目标的信息是不恰当的;
  • 在各个层直接预测目标中心,降低关键点匹配难度;

效果: 我们的架构在MS COCO上实现了47.8的mAP,这比任何其他单次检测器都高,同时使用的参数数量仅为一半,并且训练速度比次佳架构快3倍

&Research Objective

切入点: 考虑了CNN特征size与aspect对目标检测带来的影响,因而扩大了特征空间使得检测网络的性能得以提升。

该通过在网络结构的不同层中找到匹配目标的不同size与aspect ratio从而提升检测性能,而这些单独的网络层中size与aspect ratio是统一的,也就是检测网络会选择最适合目标的特征层来检测目标,这样就具有了很好的尺度与长宽比例鲁棒性。使用这个机制这篇文章的算法在MS COCO数据集上获得了47.8%的mAP,而且参数量*一半,训练速度快了3倍。

&Problem Statement

xNets 主要缓解了以下两个问题:

  • 使用正方形的 Kernel 来提取不同宽高比目标的信息是不恰当的;
  • 在各个层直接预测目标中心,降低关键点匹配难度;

&Method(s)

作者提出的算法结构大致如下图所示,对角线上的部分组成的是网络其结构就是FPN结构,在多角线的每个节点上回横向和纵向延伸(分别对应不同的宽高比例),从而构建了一了类似矩形的结构。
xNets 可以解决训练过程中目标宽高比不同的问题。xNets 将不同宽高比的目标输入到各个层,使目标经过该层之后宽高比接近于1。
【论文笔记】:MatrixNet
在这篇论文中,xNet 用于基于关键点的目标检测就构成了 KP-xNet 。
如下图所示,KP-xNet 包含 4 个步骤。

  • (a-b) 步骤使用了 xNets 主干;
  • (c) 步骤使用了共享输出子网络,而针对每个矩阵层,他们预测了左上角和右下角的热图、中心点、偏移量;
  • (d)步骤利用中心点预测匹配同一层中的角,然后将所有层的输出与 soft 非极大值抑制结合,从而得到最终输出。

【论文笔记】:MatrixNet

&Evaluation

以前性能最好的是 CenterNet,它在 COCO 数据集上能获得 47.0 的 mAP,但是 KP-xNet 只需要一半的参数量、1/3 的迭代数量、1/2 的 GPU 内存,就能获得额外 5.7% mAP 的效果提升。
【论文笔记】:MatrixNet

&Conclusion

介绍了MatrixNet,这是一种用于对象检测的比例和长宽比感知体系结构。 作者展示了如何使用MatrixNets解决关键点对象检测的基本限制。 模型在单发检测器中达到了MS COCO的最新精度。

Thinks

  • 各个长宽比的鲁棒性对精度的提升有效果。也就说,每个层的目标大小的长宽比都各不一样,特定的层仅仅是适用于一种或几种长宽比的目标检测,就类似于大小目标而言,大目标在高层,小目标在底层。所以让每个层来单独对一种或几种长宽比来检测,这样是不是就会提高呢??