arXiv综述论文“Image Segmentation Using Deep Learning: A Survey”

时间:2024-10-13 12:46:32

arXiv于2020年1月15日上传图像分割综述论文“Image Segmentation Using Deep Learning: A Survey“。在这里插入图片描述
摘要:图像分割是图像处理和计算机视觉中的关键主题,其应用包括场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等。已经开发了用于图像分割的各种算法。最近,由于深度学习模型在各种视觉应用中的成功,有大量工作在用深度学习模型开发图像分割方法。本次综述提供了对文献的全面回顾,涵盖了语义级和实例级分割的各种方法,包括全卷积像素标记网络、编码器-解码器体系结构、多尺度以及基于金字塔的方法、递归网络、视觉注意模型和对抗生成网络。作者研究了这些深度学习模型的相似性、优势和挑战,以及使用最广泛的数据集和方法性能,并讨论了该领域有希望的未来研究方向。

本文探讨的网络模型包括:

1)全卷积网络
2)带图模型的卷积模型
3)基于编-解码器的模型
4)基于多尺度和金字塔网络的模型
5)基于R-CNN的模型(实例分割)
6)扩展的卷积模型和DeepLab系列
7)基于递归神经网络的模型
8)基于注意力的模型
9)生成模型和对抗训练
10)具有主动轮廓(active contour)模型的卷积模型
11)其他

FCN网络模型:
在这里插入图片描述
在这里插入图片描述
ParseNet网络模型:
在这里插入图片描述
CNN+CRF模型:
在这里插入图片描述
Deconvolutional语义分割模型:
在这里插入图片描述
SegNet网络模型:
在这里插入图片描述
U-net网络模型:
在这里插入图片描述
V-net网络模型:
在这里插入图片描述
PSPN网络架构:
在这里插入图片描述
Faster R-CNN目标检测网络模型:
在这里插入图片描述
实例分割Mask R-CNN网络架构:
在这里插入图片描述
在这里插入图片描述
Path Aggregation Network架构:
在这里插入图片描述
MaskLab网络模型:
在这里插入图片描述
Tensor-Mask模型的实例分割结果:
在这里插入图片描述
Dilated convolution的原理:
在这里插入图片描述
DeepLab网络模型:
在这里插入图片描述
DeepLabv3+网络模型:
在这里插入图片描述
单层ReNet架构:
在这里插入图片描述
ReSeg网络模型:
在这里插入图片描述
graph-LSTM模型和pixel-wise RNN模型的比较:
在这里插入图片描述
graph-LSTM模型做语义分割的架构:
在这里插入图片描述
DA-RNN(Data Associated-Recurrent Neural Networks)网络架构:
在这里插入图片描述
基于CNN+LSTM的分割模型:
在这里插入图片描述为查询生成的分割掩码:
在这里插入图片描述
分割中的逆注意网络(reverse attention network )模型:
在这里插入图片描述
基于注意(Attention-based)的语义分割架构:
在这里插入图片描述
GAN用于语义分割的架构:
在这里插入图片描述
最后看一下以上分割模型出现的时间表:
在这里插入图片描述
今后的挑战:

  1. 已经为语义分割和实例分割创建了几个大型图像数据集。 然而,仍然需要更具挑战性的数据集以及用于不同种类图像的数据集。 对于静止图像,含有大量目标和重叠目标的数据集将非常有价值。 这使训练模型更适合于处理密集的目标场景,以及目标之间的大量重叠,显然在实际场景中很常见。
  2. 尽管基于DL的模型在具有挑战性的基准测试方面已取得了令人鼓舞的性能,但这些模型的问题仍然存在。 例如,深度网络模型究竟要学习什么? 我们应该如何解释这些模型学到的特征? 在给定的数据集上可以达到一定分割精度的最小神经网络架构是什么? 尽管可以使用一些技术来可视化这些模型的学习卷积核,但仍缺乏对这些模型的基本行为/动态特性的具体研究。 理解这些模型的理论,针对各种分割场景模型的开发才成为可能。
  3. 弱监督(也就是少样本学习)和无监督学习正在成为非常活跃的研究领域。 这些技术有望对图像分割提供价值,因为在许多应用领域,尤其是在医学图像分析中,分割问题收集的标记样本是有问题的。 迁移学习方法是在大量带标签的样本上训练通用的图像分割模型(也许来自公共基准测试),然后一些特定目标应用程序采用一些样本对该模型进行微调。 自监督学习是另一个有希望的方向,在各个领域都带来了很多吸引。 在自监督学习的帮助下,可以捕获图像中的许多细节,用更少的训练样本训练分割模型。 基于强化学习的模型也可能是另一个潜在的未来方向,本身很少受到图像分割的关注。
  4. 对大多数应用,精确度是最重要的因素。 但是在某些应用,至关重要的是要具有能够以接近实时或至少接近普通相机帧率(至少每秒25帧)运行的分割模型。 这对于例如自动驾驶的计算机视觉系统很有用。 当前的大多数模型都远没有达到这个帧率。 例如,FCN-8大约需要100毫秒来处理低分辨率图像。 基于扩张卷积的模型在某种程度上有助于提高分割模型的速度,仍有很大的改进空间。
  5. 即使只做推理,许多分割模型也占有大量内存。 到目前为止,已经很多努力来提高这种模型的准确性,但是为了使它们适合特定的设备(例如移动手机),必须简化网络。 通过使用更简单的模型,或者通过使用模型压缩技术,甚至训练复杂的模型,然后知识蒸馏(knowledge distillation)技术压缩为模仿复杂模型的较小内存有效网络来完成。
  6. 处理3D点云分割的工作很少。 但是,人们对点云分割的兴趣日益浓厚,在3D建模、自动驾驶汽车、机器人技术和建筑建模等方面具有广泛的应用。处理3D无序和非结构化数据,例如点云,仍然具有一些挑战。 例如,尚不清楚在点云数据应用CNN和其他经典深度学习架构的最佳方法是什么,基于图的深度模型可能是探索点云分割的潜在领域。