1 Introduction
早期的半监督VOS工作(如OnAVOS)依靠在评估过程中将模型在视频第一帧(具有groundtruth)上进行finetune,这可以显著地提升性能但严重降低了推理速度。最近的工作旨在避免微调并获得更好的运行速度:
- STMVOS:引入一个记忆模块来存储过往帧的信息,在训练过程中依赖于使用大量的图像数据集来模拟生成视频帧序列。仿真数据显著提高了性能,但是训练过程更加复杂。
- FEEELVOS:在没有模拟数据的情况下,采用语义像素方式嵌入全局,基于第一帧和前一帧的像素特征来匹配当前帧中的目标的像素,网络结构简单且快速,但性能却远不如STMVOS。
之前的工作主要把精力放在如何更好的匹配前景目标上,很少有工作关注背景的特征学习。直观上,如果能够精确删除所有背景,那么很容易从视频中提取前景区域。此外,视频场景中往往会存在多个相似的目标,例如会议中的多个人、赛车比赛中的多辆车还有农场中的一群动物等等。在这些场景下,如果关注其中的某一个物体却忽视其他背景中的相似物体时,预测结果就很容易被这些背景中的物体所影响甚至产生混淆。这就促使我们将背景和前景相比应进行同等对待,以便更好的地学习特征嵌入,以减轻背景混乱并提高VOS的性能。
上图便是一个简单的例子,如果我们忽略背景中的羊群,我们的预测就可能出现错误。但如果我们同时对背景中的羊以及前景中的羊都做匹配,那么原先出错的羊就有可能被正确的归类到背景中,从而避免了混淆的发生。
本文提出了一种基于前景背景集成(CFBI)进行协作视频对象分割的新颖框架。与上述方法不同,不仅提取嵌入并与参考帧中的前景目标进行匹配,而且还对背景区域进行匹配以缓解背景混乱。
此框架为每个视频帧提取两种类型embedding(pixel-level and instance-level embedding),以涵盖不同比例的特征。CFBI利用pixel-level and instance-level embedding来指导预测,此外,通过额外学习背景嵌入提出了一种collaborative ensembler。
- 与FEELVOS相似,采用像素级嵌入(pixel-level embedding)以相同的全局和局部机制匹配对象的所有细节。
- 但是,像素级匹配不足以匹配那些比例较大的对象,并且由于像素级分集而可能带来意料之外的噪声。因此,引入了实例级嵌入(instance-level embedding),以通过使用注意力机制(attention mechanisms)来帮助大规模对象的分割。
- 此外,提出了一个协作集合器(collaborative ensembler),以汇总前景和背景以及像素级和实例级的信息,并隐式地了解它们之间的协作关系。
- 为了更好地收敛,采用了一种平衡的随机裁剪方案(random-crop scheme),并在FEELVOS中提出了顺序训练方法,以在模拟帧序列时强制网络保持实例的完整性并抑制背景混乱。测试阶段的推论场景。
所有这些提议的策略都可以显着提高进行VOS的学习型协作嵌入的质量,同时保持网络的简单性和有效性。
2 Related Work
Attention Mechanisms:
最近的工作将注意力机制引入了卷积网络。 经过这些研究,SE-Nets 引入了一种轻量级的门控机制,该机制着重于通过对通道关系进行建模来增强卷积网络的表示能力。 受SE-Nets的启发,CFBI使用实例级平均池化方法来嵌入来自像素级嵌入的协作实例信息。 之后,我们通过渠道关注机制利用实例级嵌入。 与OSMN相比,后者采用了额外的卷积网络来提取实例级嵌入,我们的实例级关注方法更加有效,轻巧。
3 Proposed Method
3.1 Overview
以前的工作已经很好地探索了学习前景特征嵌入的方法。 OSMN提出进行实例级别的匹配,但是这种匹配方案未能考虑目标出现细节之间的特征多样性并导致粗略的预测。 PML和FEELVOS通过匹配目标的每个像素来替代地采用像素级匹配,这有效地考虑了特征多样性并实现了有希望的性能。尽管如此,在某些背景像素与前景像素的外观相似的情况下,执行像素级匹配可能会带来意外的噪声。
为了克服上述方法带来的问题以及从背景中提升前景对象,本文提出了通过前景背景集成(CFBI)进行的协作视频对象分割。如上图所示,使用红色和蓝色来表示前景和背景分别。
- 首先,除了从前景像素中嵌入学习功能之外,CFBI还考虑了从背景像素中进行嵌入学习以进行协作。这样的学习方案将鼓励嵌入目标对象及其对应背景的特征形成对比,从而相应地提高分割结果。
- 第二,在前景和背景像素的协作下,进一步从像素级别和实例级别进行嵌入匹配。对于像素级匹配,提高了各种对象移动速率下局部匹配的鲁棒性。对于实例级匹配,设计了一个Attention Mechanisms,可以有效地增强像素级匹配。
- 此外,为了隐式地汇总学习到的前景和背景以及像素级和实例级的信息,采用了collaborative ensembler来构造较大的接收场并进行精确的预测。
3.1 Collaborative Pixel-level Matching
3.2 Collaborative Instance-level Attention
3.3 Collaborative Ensembler(CE)