改进YOLOv5 | Stand-Alone Self-Attention | 搭建纯注意力Neck结构
论文地址:https://arxiv.org/abs/1906.05909
卷积是现代计算机视觉系统的一个基本构建模块。最近的方法主张超越卷积,以捕捉长距离的依赖关系。这些努力的重点是用基于内容的互动来增强卷积模型,如自我注意和非本地手段,以实现在一些视觉任务上的收益。由此产生的自然问题是,注意力是否可以成为视觉模型的一个独立的基元,而不是仅仅作为卷积之上的一个增量。在开发和测试一个纯粹的自我注意视觉模型时,我们验证了自我注意确实可以成为一个有效的独立层。一个简单的程序,即用一种自我注意的形式取代空间卷积的所有实例,应用于ResNet模型,产生了一个完全自我注意的模型,在ImageNet分类上的表现优于基线,FLOPS减少12%,参数减少29%。在COCO物体检测方面,纯自我注意力模型与基线视网膜网络的mAP相匹配,而FLOPS少了39%,参数少了34%。详细的消融研究表明,自我注意在后期使用时特别有影响。这些结果表明,独立的自我注意是视觉从业者工具箱中的一个重要补充。
什么是独立自注意力?
常规的注意力机制是和卷积结合起来作为卷积的扩展来使用的,而独立自注意力不依赖卷积层,单独作为一层使用。