深度学习anchor的理解

摘抄与某乎

anchor 让网络学习到的是一种推断的能力。网络不会认为它拿到的这一小块 feature map 具有七十二变的能力，能同时从 9 种不同的 anchor 区域得到。拥有 anchor 的 rpn 做的事情是它已知图像中的某一部分的 feature（也就是滑动窗口的输入），判断 anchor 是物体的概率。anchor 可能比感受野大，也可能比感受野小，如果 anchor 比感受野大，就相当于只看到了我关心的区域（anchor）的一部分（感受野），通过部分判断整体，如果比感受野小，那就是我知道比我关心的区域更大的区域的信息，判断其中我关心的区域是不是物体。

作者：大缺弦
链接：https://www.zhihu.com/question/42205480/answer/378130538
来源：X乎

无耻粘贴复制的，^_^

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

anchor boxes用来预测bounding box，faster rcnn中用128*128,256*256,512*512,分三个尺度变换1：1,1：2,2：1,共计9个anchor来预测框，每个anchor预测2000个框左右，使得检出率提高很多。YOLOv2开始增加了anchor机制，在v3中增加到9个anchor。例如yolov3-voc.cfg中这组anchor，anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326，由作者通过聚类VOC数据集得到的，20类目标中大到bicycle、bus，小到bird、cat，目标大小差距很大，如果用自己的数据集训练检测目标，其中部分anchor并不合理，本文记录下在自己的数据集上聚类计算anchor，提高bounding box的检出率。

秒客网

深度学习anchor的理解

相关文章