目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器

时间:2024-04-03 17:08:20

1. 滑动窗口检测器

滑动窗口检测器是一种暴力检测方法,从左到右,从上到下滑动窗口,然后利用分类识别目标。这里使用不同大小的窗口,因为一张图片可能展示从不同距离观测检测出不同的目标类型。
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器
滑动窗口从图像中可能剪切出不同大小的图像块,但是很多分类器只取固定大小的图像,所以这些图像是经过变形转换的。但是这样做并不影响准确率,因为分类器可以处理变形后的图像。
变形图像被输入到CNN中,提取4096个特征,然后使用SVM和一个线性分类器来识别分类和边界框。
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器

2. 选择性搜索(selective search SS)

为了在滑动窗口检测器的基础上提高搜索速度,可以采用候选区域方法(region proposal method)创建目标检测的感兴趣区域(ROI)。在选择性搜索中,首先将每个像素作为一组,然后计算每一组的纹理,将两个最接近的组结合起来,我们通常对较小的组先分组,合并区域知道所有区域都合并在一起。下图展示了区域合并:
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器
下面展示了区域合并过程中所有可能的ROI:
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器

3. R-CNN

R-CNN利用候选区域方法创建的2000多个ROI,并将这些ROI转换为固定大小的图像并送到CNN中。该网络架构后面一般会跟几个全连接层,以实现目标分类并提炼边界框
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器
下面是R-CNN系统的流程图:
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器
通过使用更少更高质量的ROI,R-CNN通常比滑动窗口方法更加快速准确

4. 边界框回归器

虽然相对于滑动窗口检测器来说,候选区域方法有很大的性能提升,但是整个算法仍然具有较大的计算复杂度。为了加速这个进程,我们通常会选用计算量较小的候选区域选择方法构建ROI,并在后面使用线性回归器(全连接层)进一步提炼边界框。
目标检测模型一:滑动窗口检测器,选择性搜索,R-CNN,边界框回归器