论文学习：Microsoft COCO Common Objects in Context

时间：2024-05-23 12:48:29

论文学习：Microsoft COCO: Common Objects in Context

Abstract

为了促进物体识别的发展，COCO数据集是在把物体识别放到更广泛的场景理解问题下的情况下被制作而成的。
每个物体都被单独分割标注，这样做的目的是进行精确的物体定位。
数据集包含91种物体类别，2500000个被标注的物体，328000张图片

INTRODUCTION

论文要点

对可见场景的理解包括以下几种任务：
- 识别出所呈现出的物体是什么
- 在2维或3维空间中对物体定位
- 决定物体和场景的属性
- 找出物体之间的关系并对场景进行描述
现有的数据集都适用于场景理解的第一个任务。
COCO数据集专注于解决3大核心问题：
- 检测非图标视图（non-iconic views）中的物体：
  
  图标视图指的是物体大致位于图片中间，没有遮挡，轮廓清晰的这种。
  
  非图标视图指的是存在于背景中，有遮挡的，杂乱的这种。
- 物体之间的上下文推理：
  
  在一张自然图片中识别出多个物体是一个挑战，因为图片中的物体存在小尺寸和容易混淆的问题，想要实现识别出多个物体，需要使用上下文（context）。为了推进上下文推理（contextual reasoning）的发展，用图像去描述场景而不是孤立的物体是必要的。
- 物体精确的二维空间定位
  
  对物体详细的空间分布理解对场景理解非常重要，COCO数据集对图片的分割达到了每个物体的级别，如图所示：（图d是COCO数据集的标注方式）

论文学习：Microsoft COCO Common Objects in Context

RELATED WORK

与物体识别相关的数据集可以按照所专注于的问题不同大致分为三类：
- 图片分类（object classification）：
  
  需要一系列值为或0或1的标签来表示图片中是否有某一物体。如上一张图片中的图a。
- 物体检测（object detection）：
  
  完成两个任务：1. 判断图中物体属于的类别；2. 判断图中物体的位置
- 场景语义标注（semantic scene labeling）：
  
  需要得到图片中每个像素属于哪一个类别的物体。

IMAGE COLLECTION

由于我主要是使用这个数据集，所以这一节略过。

IMAGE ANNOTATION

由于我主要是使用这个数据集，所以这一节略过。

DATASET STATISTICS

COCO数据集一个重要的特性就是它的图片是非图标视图，且含有大量的上下文信息。上下文信息的含有量可以用每张图片中含有的平均类别数和物体数来估计。COCO数据集每一张图片平均拥有3.5个类别和7.7个实例，而ImageNet 和PASCAL VOC，平均每张图片少于2个类别和3个实例。
COCO数据集的物体也更小，所以更需要上下文信息。

DATASET SPLITS

数据集划分为：1/2训练集，1/4验证集，1/4测试集

ALGORITHMIC ANALYSIS

略。

DISCUSSION

后续请关注官网：http://mscoco.org/

相关文章

论文学习：Microsoft COCO Common Objects in Context

