insightface提供整理了 mtcnn裁剪112x112,mxnet二进制方式保存的数据集
https://github.com/deepinsight/insightface/wiki/Dataset-Zoo
人脸识别训练数据集:
CASIA-Webface (10K ids/0.5M images)
CASIA WebFace Dataset 是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,从IMBb网站上搜集来的
2014年李子青实验室公开的人脸识别数据集,数据集收集自网络人脸图片,包含10575个人494414张图像
CelebA (10K ids/0.2M images)
CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集
其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记
CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等
UMDFace (8K ids/0.37M images)
该数据集包含367920张人脸,分别类属于8501个事件类别。
提供的人脸信息包括,人脸框,人脸姿势,(yaw,pitch,roll),21个关键点,性别信息等。
由于图片尺度,方向等的问题,使得该数据集不适合做人脸检测的训练,适合做人脸识别。
VGG2 (9K ids/3.31M images)
VGGFace2 是一个大规模人脸识别数据,包含331万图片,9131个ID,平均图片个数为362.6。
该数据集是从谷歌中下载的,包含不同姿态、年龄、光照和背景的人脸图片,其中约有59.7%的男性。
除了身份信息之外,数据集还包括人脸框,5个关键点、以及估计的年龄和姿态。
MS1M-IBUG (85K ids/3.8M images)
原数据集:MS-Celeb-1M
100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大,很难。
iBUG清洗过的数据集,85K ids,3.8M图片
MS1M-ArcFace (85K ids/5.8M images)
原数据集:MS-Celeb-1M
100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大,很难。
ArcFace清洗过的数据集,85K ids,5.8M图片
Asian-Celeb (94K ids/2.8M images)
亚洲名人数据集 9.4万ID,280万张图片
DeepGlint (181K ids/6.75M images)
由两部分人脸数据组成
1.原数据集:MS-Celeb-1M
由DeepGlint格林深瞳公司清洗的86,876个ids / 3,923,399个对齐图像。
2.原数据集:Asian-Celeb
由DeepGlint格林深瞳公司清洗的93,979个ids / 2,830,146个对齐图像。
合并后数据集:ids:86876+93979=181K, 图片数量:3923399+2830146=6.75M
IMDB-Face (59K ids/1.7M images)
IMDb-Face是用于人脸识别研究的新的大规模噪声控制数据集。
该数据集包含约170万张面孔,5万9千个身份
所有图像均从IMDb网站获得
Celeb500k (500K ids/50M images)
MegaFace (672K ids/4.7M images)
672K人的4.7M张图片
MegaFace数据集是最大的可公开使用的面部识别数据集,具有一百万个面部及其各自的边界框。
MegaFace的图片是在由雅虎放出的含1亿图片的Flickr数据集的基础上进一步提取和处理得到的
人脸识别验证数据集:
CFP-FP (500 ids/7K images/7K pairs)[12]
这个数据集由500个identity的约共7000张图片组成,这个数据集的特别之处在于对于每个人,它有10张正面图像和4张侧面图像,
这对于想要做侧脸识别的同学还是很有帮助的
AgeDB-30 (570 ids/12,240 images/6K pairs)[13,6]
AgeDB(Age Database )包含
6000对 共440个ID,12240张不同姿态、表情、年龄、性别的图片。
同一个ID中,最大最小年龄差分别为3岁和101岁,所有ID的平均年龄为49岁。
根据不同的年龄差把所有数据划分为4个年龄段(年龄差5岁、10岁、20岁以及30岁)。其中每个年龄段的数据包括300对正样本、300对负样本。
此处验证集使用年龄差为30的数据,命名为agedb30。
LFW (5749 ids/13233 images/6K pairs)[14]
5749个ID,13233张不同姿态、表情的图片,提供的人脸图片均来源于生活中的自然场景
LFW数据集主要测试人脸识别的准确率,该数据库从中随机选择了6000对人脸组成了人脸辨识图片对,
其中3000对属于同一个人2张人脸照片,3000对属于不同的人每人1张人脸照片。
测试过程LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出“是”或“否”的答案。
通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。
http://vis-www.cs.umass.edu/lfw/
CALFW (5749 ids/13233 images/6K pairs)[15]
基于LFW数据集标注的跨年龄数据集,Cross-Age LFW (CALFW) database
http://www.whdeng.cn/CALFW/index.html?reload=true
CPLFW (5749 ids/13233 images/6K pairs)[16]
基于LFW数据集标注的跨姿态数据集,Cross-Pose LFW (CPLFW) Database
http://www.whdeng.cn/CPLFW/index.html?reload=true
人脸识别图像测试数据集:
MegaFace
使用MegaFace的测试数据集
IJB (IJB-B, IJB-C)
IJB-A 全称为 IARPA Janus Benchmark-A face challenge, 由 NIST(National Institute of Standards and Technology)所提出,
该竞赛所提供的数据集包含 500 个对象的 5712 张静态人脸图像和 2085 个人脸视频帧。
IJB-B 由 IJB-A 迭代而来,
该竞赛所提供的数据集包含 1845 个对象的 11754 张人脸图像, 55026 个视频帧,7011 个视频,10044 张非人脸图像。
IJB-C 由 IJB-B 迭代而来,
该竞赛所提供的数据集包含 3531 个对象的 21294 张人脸图像, 117542 个视频帧,11779 个视频,10040 张非人脸图像。
https://www.nist.gov/itl/iad/ig/ijb-c-dataset-request-form
TrillionPairs
使用格林深瞳的测试数据集
NIST
由美国国家标准与技术研究院 NIST(National Institute of Standards and Technology) 组织的人脸识别算法测试集
NIST 指导下的人脸识别算法测试,数据均来自真实业务场景,意味着测试结果代表该技术在实战场景中的表现;数据规模是通过对百亿对样本采样,达到百万量级。
其中IJB也是NIST组织提供
FRVT:Face Recognition Vendor Test,人脸识别技术评测
参考:
FRVT是美国国家标准技术局NIST组织的专业人脸识别测评,其主要目的是测试人脸识别算法水准。
FRVT测评不会公布人脸的训练集,很难通过拟合训练集方式参加比赛。参赛者提供算法SDK之后,FRVT直接测试这些算法性能。
FRVT训练集及测试集都不提供
FRVT人脸识别挑战大赛会给出一个排行榜,记录每个参赛组织在Visa,Mugshot、Wild、Child exploitation等六个数据集上的拒识率和误识率排行情况。
人脸识别视频测试数据集:
YTF
Youtube人脸(YTF)数据集包含3 495个不同人的视频,平均每人2.15个视频
IQIYI
爱奇艺开放目前全球最大的明星视频数据集(iQIYI-VID),该数据集包含5000位明星艺人,以及长达1000小时、50万条视频片段
其他数据集:
年龄识别数据集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含524230张从IMDB和Wikipedia爬取的名人数据图片。应用了一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对于得到的分数和0-100相乘,并将最终结果求和,得到最终识别的年龄。