COCO数据集合

时间:2024-05-23 13:03:01

Y_Wolf(2020.01.12)

  • “captions” : 看图说话

    根据图片对对象进行描述

    • “info” : 基本信息

      COCO数据集合

      • “year” : 年份(int)
      • “version” : 版本编号(str)
      • “description” : 数据集描述(str)
      • “contributor” : 提供者(str)
      • “url”: 下载地址(str)
      • “date_created”: 创建日期(datetime)
    • “licenses” : 图片许可证

      COCO数据集合

      • “id” : 许可证ID(int)
      • “name” : 许可证说明(str)
      • “url” : 图片来源(str)
    • “images” : 图片信息

      COCO数据集合

      • “id” : 图片ID——不重复(int)

      • “width” : 图片像素宽度 (int)

      • “height”: 图片像素高度(int)

      • “file_name” : 图片名称(str)

      • “license” : 许可证ID(int)

      • “flickr_url”: 图片在flickr上的地址(str)

        Flickr是雅虎的一个图片存储和视频托管网站

      • “coco_url” : 图片地址(str)

      • “date_captured” : 数据获取日期(datetime)

    • “annotations” : 对象信息

      COCO数据集合

      • “id” : 对象ID(int)

        因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)

      • “image_id” : 对象所对应的图片ID(int)

        与 “captions” -> “images” 中的ID相对应

      • “captions” : 文字描述(str)

  • “instances” : 目标实例

    框出相应的对象

    • “info” : 基本信息

      COCO数据集合

      • “year” : 年份(int)
      • “version” : 版本编号(str)
      • “description” : 数据集描述(str)
      • “contributor” : 提供者(str)
      • “url”: 下载地址(str)
      • “date_created”: 创建日期(datetime)
    • “licenses” : 图片许可证

      COCO数据集合

      • “id” : 许可证ID(int)
      • “name” : 许可证说明(str)
      • “url” : 图片来源(str)
    • “images” : 图片信息

      COCO数据集合

      • “id” : 图片ID——不重复(int)

      • “width” : 图片像素宽度 (int)

      • “height”: 图片像素高度(int)

      • “file_name” : 图片名称(str)

      • “license” : 许可证ID(int)

      • “flickr_url”: 图片在flickr上的地址(str)

        Flickr是雅虎的一个图片存储和视频托管网站

      • “coco_url” : 图片地址(str)

      • “date_captured” : 数据获取日期(datetime)

    • “annotations” : 对象信息

      COCO数据集合

      • “id” : 对象ID(int)

        因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)

      • “image_id” : 对象所对应的图片ID(int)

        与 “captions” -> “images” 中的ID相对应

      • “category_id” : 类别ID (int)

        与 “captions” -> “categories” 中的ID相对应

      • “segmentation”: 对象的边界点

        COCO数据集合

        polygon(边界多边形),格式为c(x1, y1, x2, y2 …xn,yn), 这些数按照相邻的顺序两两组成一个点的xy坐标,然后根据顺序将这些点连接成环,来围住对象的轮廓。RLE (行程长度编码),这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0,有关的像素标记为1。那么就会的到一个由0和1组成的矩阵,假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的,因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度,我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。

      • “area”: 区域面积(float)

      • “bbox”: 定位边框 (vector)

        COCO数据集合

      • “iscrowd”: 0 或 1

        当实例是一个单个的对象时, “iscrowd” = 0 ,“segmentation” 使用 polygon格式;当实例是一组对象时 时,“iscrowd” = 1 ,“segmentation” 使用 RLE格式;

    • “categories” : 类别信息

      COCO数据集合

      • “supercategory”: 主类别(str)

      • “id”: 类对应的id (int)

        0 默认为背景

      • “name”: 子类别(str)

  • “person_keypoints” : 目标上的关键点

    标记出该类别的关键点

    • “info” : 基本信息

      COCO数据集合

      • “year” : 年份(int)
      • “version” : 版本编号(str)
      • “description” : 数据集描述(str)
      • “contributor” : 提供者(str)
      • “url”: 下载地址(str)
      • “date_created”: 创建日期(datetime)
    • “licenses” : 图片许可证

      COCO数据集合

      • “id” : 许可证ID(int)
      • “name” : 许可证说明(str)
      • “url” : 图片来源(str)
    • “images” : 图片信息

      COCO数据集合

      • “id” : 图片ID——不重复(int)

      • “width” : 图片像素宽度 (int)

      • “height”: 图片像素高度(int)

      • “file_name” : 图片名称(str)

      • “license” : 许可证ID(int)

      • “flickr_url”: 图片在flickr上的地址(str)

        Flickr是雅虎的一个图片存储和视频托管网站

      • “coco_url” : 图片地址(str)

      • “date_captured” : 数据获取日期(datetime)

    • “annotations” : 对象信息

      COCO数据集合

      • “keypoints”: 关键点信息(vector)

        COCO数据集合

        "annotations"中的"keypoints"按照顺序为"captions"中"keypoints"的每个关键点都定义了一个长度为3的数组。数组中的前两个元素分别为x和y的坐标值。第三个元素为标注位v。当这个关键点没有被标注时,v = 0;当这个关键点被标注了但是被遮挡时,v = 1;当这个关键点被标注了也看得见时,v = 2;

      • “num_keypoints”: 对象上被标注的关键点数量(int)

        num_keypoints表示这个目标上被标注的关键点的数量(v > 0),比较小的目标上可能就无法标注关键点

      • “id” : 对象ID(int)

        因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)

      • “image_id” : 对象所对应的图片ID(int)

        与 “captions” -> “images” 中的ID相对应

      • “category_id” : 类别ID (int)

        与 “captions” -> “categories” 中的ID相对应

      • “segmentation”: 对象的边界点

        COCO数据集合

        polygon(边界多边形),格式为c(x1, y1, x2, y2 …xn,yn), 这些数按照相邻的顺序两两组成一个点的xy坐标,然后根据顺序将这些点连接成环,来围住对象的轮廓。RLE (行程长度编码),这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0,有关的像素标记为1。那么就会的到一个由0和1组成的矩阵,假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的,因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度,我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。

      • “area”: 区域面积(float)

      • “bbox”: 定位边框 (vector)

        COCO数据集合

      • “iscrowd”: 0 或 1

        当实例是一个单个的对象时, “iscrowd” = 0 ,“segmentation” 使用 polygon格式;当实例是一组对象时 时,“iscrowd” = 1 ,“segmentation” 使用 RLE格式;

    • “categories” : 类别信息

      COCO数据集合

      • “supercategory”: 主类别(str)

      • “id”: 类对应的id (int)

        0 默认为背景

      • “name”: 子类别(str)

      • “keypoints”: 关键点名称(str)

      • “skeleton”: 关键点之间的连接性

COCO数据集合