RT-DETRv2 的框架与 RT-DETR 保持一致,仅对解码器中的可变形注意力模块进行了修改。
不同尺度下不同的采样点数量
当前的 DETRs 使用可变形注意力模块来缓解由多尺度特征组成的长输入序列带来的高计算开销。RT-DETR 解码器保留了这个模块,并在每个尺度上定义了相同的采样点数量。我们认为这种约束忽略了不同尺度特征之间的固有差异,限制了可变形注意力模块的特征提取能力。因此,我们提出为不同尺度设置不同的采样点数量,以实现更灵活高效的特征提取。
离散采样
为了提高 RT-DETR 的实用性并使其在各种环境中可用,作者专注于比较 YOLOs 和 RT-DETR 的部署要求,其中 RT-DETR 专用的 grid_sample 运算符限制了其广泛应用。因此,作者提出一个可选的 discrete_sample 运算符来替换 grid_sample,从而去除 RT-DETR 的部署限制。具体来说,在预测的采样偏移量上执行四舍五入操作,省去了耗时的双线性插值。然而,四舍五入操作是非可微的,所以关闭用于预测采样偏移量的参数梯度。在实践中,首先使用 grid_sample 运算符进行训练,然后在微调阶段将其替换为 discrete_sample 运算符。对于推理和部署,模型采用 discrete_sample 运算符。