Abstract
然而,我们观察到nnms对yolo的速度和准确性产生了负面影响。最近,端到端基于变压器的检测器(DETRs)为消除NMS提供了一种替代方案。然而,高昂的计算成本限制了它们的实用性,阻碍了它们充分发挥排除NMS的优势。在本文中,我们提出了实时检测变压器(RT-DETR),这是我们所知的第一个解决上述困境的实时端到端对象检测器。我们在先进的DETR基础上分两步构建RT-DETR:首先我们专注于在提高速度的同时保持精度,其次是在提高精度的同时保持速度。具体而言,我们设计了一种高效的混合编码器,通过解耦尺度内相互作用和跨尺度融合来快速处理多尺度特征,以提高速度。
网络架构图
RT-DETR概述。我们将主干最后三个阶段的特征输入到编码器中。高效混合编码器通过基于注意力的尺度内特征交互(AIFI)和基于cnn的跨尺度特征融合(CCFF)将多尺度特征转化为图像特征序列。然后,最小不确定性查询选择选择固定数量的编码器特征作为解码器的初始对象查询。最后,具有辅助预测头的解码器迭代优化对象查询以生成类别和框。
results
我们的RT-DETR-R50实现了53.1%的AP和108 FPS,而RTDETR-R101实现了54.3%的AP和74 FPS,在速度和精度上都优于最先进的类似规模的YOLO探测器和相同骨干的detr。
method
文件中提出的方法是用于实时物体检测的实时检测变换器 (RT-DETR)。RT-DETR 由主干、高效混合编码器和带有辅助预测头的 Transformer 解码器组成。该方法包括将主干中的特征输入编码器,采用不确定性最小查询选择来初始化解码器的物体查询,并优化物体查询以生成类别和框[T3]。此外,RT-DETR 通过调整解码器层数来支持灵活的速度调整,以适应各种场景而无需重新训练[T2]。
conclusion
在这项工作中,我们提出了一种实时端到端检测器,称为RT-DETR,它成功地将DETR扩展到实时检测场景,并实现了最先进的性能。RT-DETR包括两个关键的增强功能:快速处理多尺度特征的高效混合编码器,以及提高初始对象查询质量的最小不确定性查询选择。此外,RT-DETR支持灵活的速度调整,无需重新训练,消除了两个NMS阈值带来的不便,便于实际应用。RTDETR及其模型缩放策略扩展了实时目标检测的技术方法,为各种实时场景提供了超越YOLO的新可能性。我们希望RT-DETR能够付诸实施。