Y_Wolf(2020.01.12)
-
“captions” : 看图说话
根据图片对对象进行描述
-
“info” : 基本信息
- “year” : 年份(int)
- “version” : 版本编号(str)
- “description” : 数据集描述(str)
- “contributor” : 提供者(str)
- “url”: 下载地址(str)
- “date_created”: 创建日期(datetime)
-
“licenses” : 图片许可证
- “id” : 许可证ID(int)
- “name” : 许可证说明(str)
- “url” : 图片来源(str)
-
“images” : 图片信息
-
“id” : 图片ID——不重复(int)
-
“width” : 图片像素宽度 (int)
-
“height”: 图片像素高度(int)
-
“file_name” : 图片名称(str)
-
“license” : 许可证ID(int)
-
“flickr_url”: 图片在flickr上的地址(str)
Flickr是雅虎的一个图片存储和视频托管网站
-
“coco_url” : 图片地址(str)
-
“date_captured” : 数据获取日期(datetime)
-
-
“annotations” : 对象信息
-
“id” : 对象ID(int)
因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)
-
“image_id” : 对象所对应的图片ID(int)
与 “captions” -> “images” 中的ID相对应
-
“captions” : 文字描述(str)
-
-
-
“instances” : 目标实例
框出相应的对象
-
“info” : 基本信息
- “year” : 年份(int)
- “version” : 版本编号(str)
- “description” : 数据集描述(str)
- “contributor” : 提供者(str)
- “url”: 下载地址(str)
- “date_created”: 创建日期(datetime)
-
“licenses” : 图片许可证
- “id” : 许可证ID(int)
- “name” : 许可证说明(str)
- “url” : 图片来源(str)
-
“images” : 图片信息
-
“id” : 图片ID——不重复(int)
-
“width” : 图片像素宽度 (int)
-
“height”: 图片像素高度(int)
-
“file_name” : 图片名称(str)
-
“license” : 许可证ID(int)
-
“flickr_url”: 图片在flickr上的地址(str)
Flickr是雅虎的一个图片存储和视频托管网站
-
“coco_url” : 图片地址(str)
-
“date_captured” : 数据获取日期(datetime)
-
-
“annotations” : 对象信息
-
“id” : 对象ID(int)
因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)
-
“image_id” : 对象所对应的图片ID(int)
与 “captions” -> “images” 中的ID相对应
-
“category_id” : 类别ID (int)
与 “captions” -> “categories” 中的ID相对应
-
“segmentation”: 对象的边界点
polygon(边界多边形),格式为c(x1, y1, x2, y2 …xn,yn), 这些数按照相邻的顺序两两组成一个点的xy坐标,然后根据顺序将这些点连接成环,来围住对象的轮廓。RLE (行程长度编码),这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0,有关的像素标记为1。那么就会的到一个由0和1组成的矩阵,假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的,因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度,我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。
-
“area”: 区域面积(float)
-
“bbox”: 定位边框 (vector)
-
“iscrowd”: 0 或 1
当实例是一个单个的对象时, “iscrowd” = 0 ,“segmentation” 使用 polygon格式;当实例是一组对象时 时,“iscrowd” = 1 ,“segmentation” 使用 RLE格式;
-
-
“categories” : 类别信息
-
“supercategory”: 主类别(str)
-
“id”: 类对应的id (int)
0 默认为背景
-
“name”: 子类别(str)
-
-
-
“person_keypoints” : 目标上的关键点
标记出该类别的关键点
-
“info” : 基本信息
- “year” : 年份(int)
- “version” : 版本编号(str)
- “description” : 数据集描述(str)
- “contributor” : 提供者(str)
- “url”: 下载地址(str)
- “date_created”: 创建日期(datetime)
-
“licenses” : 图片许可证
- “id” : 许可证ID(int)
- “name” : 许可证说明(str)
- “url” : 图片来源(str)
-
“images” : 图片信息
-
“id” : 图片ID——不重复(int)
-
“width” : 图片像素宽度 (int)
-
“height”: 图片像素高度(int)
-
“file_name” : 图片名称(str)
-
“license” : 许可证ID(int)
-
“flickr_url”: 图片在flickr上的地址(str)
Flickr是雅虎的一个图片存储和视频托管网站
-
“coco_url” : 图片地址(str)
-
“date_captured” : 数据获取日期(datetime)
-
-
“annotations” : 对象信息
-
“keypoints”: 关键点信息(vector)
"annotations"中的"keypoints"按照顺序为"captions"中"keypoints"的每个关键点都定义了一个长度为3的数组。数组中的前两个元素分别为x和y的坐标值。第三个元素为标注位v。当这个关键点没有被标注时,v = 0;当这个关键点被标注了但是被遮挡时,v = 1;当这个关键点被标注了也看得见时,v = 2;
-
“num_keypoints”: 对象上被标注的关键点数量(int)
num_keypoints表示这个目标上被标注的关键点的数量(v > 0),比较小的目标上可能就无法标注关键点
-
“id” : 对象ID(int)
因为一张图片可以有很多个对象,比如一个服装模特图,模特穿的衣服是一个对象,穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号(每个编号都是唯一的)
-
“image_id” : 对象所对应的图片ID(int)
与 “captions” -> “images” 中的ID相对应
-
“category_id” : 类别ID (int)
与 “captions” -> “categories” 中的ID相对应
-
“segmentation”: 对象的边界点
polygon(边界多边形),格式为c(x1, y1, x2, y2 …xn,yn), 这些数按照相邻的顺序两两组成一个点的xy坐标,然后根据顺序将这些点连接成环,来围住对象的轮廓。RLE (行程长度编码),这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0,有关的像素标记为1。那么就会的到一个由0和1组成的矩阵,假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的,因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度,我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。
-
“area”: 区域面积(float)
-
“bbox”: 定位边框 (vector)
-
“iscrowd”: 0 或 1
当实例是一个单个的对象时, “iscrowd” = 0 ,“segmentation” 使用 polygon格式;当实例是一组对象时 时,“iscrowd” = 1 ,“segmentation” 使用 RLE格式;
-
-
“categories” : 类别信息
-
“supercategory”: 主类别(str)
-
“id”: 类对应的id (int)
0 默认为背景
-
“name”: 子类别(str)
-
“keypoints”: 关键点名称(str)
-
“skeleton”: 关键点之间的连接性
-
-