推荐一个大佬的综述,关于实现唇语识别的多种途径。
唇读(Lip Reading),也称视觉语音识别(Visual Speech Recognition),通过说话者口
型变化信息推断其所说的内容,旨在利用视觉信道信息补充听觉信道信息,在现实生活中有重要应用。例如,应用在医疗领域辅助听力受损的病人提高沟通交流能力,在军事领域提高情报获取和处理能力,在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展,以及数据集规模的不断完善,基于深度学习的框架方法已经逐渐取代传统方法,成为唇读的主流方法。本文对构建自动唇读系统过程中常用到的数据集进行总结介绍。根据自动唇读系统解决的目标任务不同,可将现有数据集分为字母、数字数据集,单词、短语数据集和语句数据集三大类。
目录:
- AVLetters
- XM2VTS 数据集
- BANCA 数据集
- GRID 数据集
- OuluVS 数据集
- LRW 数据集
- LRW-1000 数据集
- AVICAR 数据集
- MOBIO 数据集
- IO 数据集样本
- LRS 数据集
- Multi-PIE
一、字母、数字数据集
1.AVLetters 数据集
AVLetters 数据集由英国东英吉利大学、曼彻斯特大学团队于 1998 年创建,是第一个视听
语音数据集。数据集初始包含 10 个说话人,每个人分别 3 次独立的陈述 26 个英文字母,总计780 个话语实例。由于提出年份较早,拍摄条件有限,视频分辨率较低,仅为 376 像素288 像素,每秒 25 帧。在手动定位每张图像中嘴唇的位置之后,将整个图像裁剪至 80 像素60 像素,形成最终的数据集。
2. XM2VTS 数据集
XM2VTS 数据集是从 M2VTS 项目(Multi ModalVerification for Teleservices and Securi
ty applications)中获得,由英国萨里大学、瑞士 IDIAP 研究所团队于 1999 年提出,该数据集创建的初衷是为研究团队提供高质量数据来测试多模态人脸验证算法。共 295 名志愿者参加了该数据集的记录,每个志愿者以正常语速读两个数字序列和一个语音平衡的句子(10 个数字、7个单词),这个过程进行两次。此外,考虑到志愿者自然变化的影响,在五个月时间内平均进行4 次记录,总计 7080 个话语实例。值得一提的是,该数据集考虑了头部姿态变化因素,并记录了志愿者在不同角度的头部图像(头部姿态变化的过程中未说话)。
3. BANCA 数据集
BANCA 数据集是由瑞士 IDIAP 研究所、西班牙卡洛斯三世大学、英国萨里大学团队于2003年创建,旨在训练和测试多模态身份验证系统。该数据集由四种不同的语言(英语、法语、意大利语、西班牙语)进行记录,并且在三个环境条件下(controlled, degraded and adverse)进行拍摄。数据量也有了一个大的提升,总共有 208个参与者,将近 30000 个话语实例。参与者除了读一个数字序列之外,还需要说出自己的姓名、住址、生日等信息。BANCA 数据集为不仅研究团体提供了在具有挑战性的数据集上测试多模式身份验证算法的机会,也同时推动了唇读研究的发展。
二、单词、短语数据集
4. GRID 数据集
GRID 数据集是由美国谢菲尔德大学团队于2006 年提出,旨在为语音感知和自动语音识别研究提供实验数据。该数据集在实验室环境下录制,只有 34 个志愿者,这在大型数据集中人数算比较少的,但每个志愿者说 1000 个短语,共 34000个话语实例。该数据集短语构成符合一定的规律,每个短语包含 6 个单词,不是常见的短语,而是在 6 类单词中每类随机挑选一个组成随机短语。这 6 类单词分别是“命令”、“颜色”、“介词”、“字母”、“数字”和“副词”,例如:Bin blueat A 1 again。每类单词规定了数量,单词总数共 51 个。数据集是完全公开的,不需要与发布者联系,也不需要填写保密协议即可在网上下载使用。
5. OuluVS 数据集
官网地址:数据集地址
OuluVS 数据集是由芬兰奥卢大学团队于 2009 年发布,旨在为视听语音识别系统进行性能评估提供一个统一的标准。该数据集包含 20 个参与者,每名参与者陈述 10 个日常问候短语 5 次,一共 1000 个话语实例。OuluVS 数据集是最早几个针对短语任务而构建的数据集之一,将唇读(自动语音识别)系统的发展推向了一个新的起点。
6. LRW 数据集
LRW 数据集是由牛津大学视觉几何团队于2016 年提出。因深度学习的兴起,大规模数据集的需求越来越大,LRW 数据集应运而生。不同于以往数据集,LRW 数据集数据来源于 BBC 广播电视节目而不是由志愿者或实验人员录制,使得该数据集数据量有了质的飞跃。数据集选择了 500最常出现的单词,截取说话人说这些单词的镜头,因此说话人超过 1000 个,话语实例超过 550000万个,一定程度上满足了深度学习对于数据量的需求。
7. LRW-1000 数据集
################## start ##################
实验室近日发布目前最大规模的中文词级唇读数据集LRW-1000(链接:http://vipl.ict.ac.cn/view_database.php?id=14)。该数据集总计包含1000个中文词汇,总计大约718,018个样本。据我们所知,这是目前唇语识别领域规模最大的词级公开数据集,也是唯一公开的大规模中文唇语识别数据集。该数据集中视频序列均来源于电视节目,因此包含了复杂的变化条件,包括光照、说话人姿态、语速、视频分辨率等,是分布自然而极具挑战的唇读数据集。具体来说,LRW-1000具有以下特点:
- 关于说话人(Speakers):总计大约超过2000个不同的说话人,说话人的性别、姿态、年龄、化妆与否等均无限定,同时说话时的语速也未做严格限制,基本覆盖了自然场景下的说话情况。
- 关于数据样本(Word Samples):总计包含大约718,018个序列片段,每个序列片段对应于一个中文词汇,平均每个样本约0.3秒。在实际应用中大量存在的短词汇也正是研究的难点所在。
- 关于分辨率(Lip Region Resolution):该数据集取自各类电视节目,覆盖了较大的人脸分辨率范围,唇部区域分辨率从2020到300300不等,与实际应用情况基本相符。
注:其它详细信息请参考我们的论文:《LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild》(https://arxiv.org/pdf/1810.06990.pdf)
考虑到数据集的难度,为方便进行唇语识别技术的对比与测试,我们分别依照说话人的姿态、唇部区域分辨率的大小以及每个中文词汇的长短,将数据划分为了不同难度的三个等级,如下:
综合来说,LRW-1000是目前最大的词级唇语识别数据集,也是目前唯一公开的大规模中文唇语识别数据集,欢迎各位同行申请使用。(联系邮箱:[email protected]; [email protected])
################## end ##################
LRW-1000 数据集是由中科院计算所、中国科学院大学和华中科技大学团队于 2018 年提出,旨在建立一个在室外环境下并且图像尺寸不一的大规模基准。该数据集涵盖了不同语音模式和成像条件下的自然变化,以应对实际应用中遇到的挑战。该数据集来源于中文电视节目,包含 1000 个类,每一个类对应由一个或几个汉字组成的汉语单词。该数据集是规模最大的中文单词唇读数据集,截取的镜头包括超过2000个说话人,将近 720000 个话语实例。该数据集数据的丰富性保证了深度学习模型得到充分的训练。同时,该数据集也是唯一一个公开的中文普通话唇读数据集。
三、语句数据集
8.AVICAR 数据集
AVICAR 数据集是由美国伊利诺伊大学的研究团队于 2004 年提出,该数据集全部在汽车中进行拍摄,旨在创建一个带有环境噪声的数据集,为噪声条件下的唇读系统提供数据支持。AVICAR数据集包括 100 名参与者,数据包括独立字母、独立数字、数字序列(10 个)和语音平衡的句子,一共 59000 个话语实例。为了模拟在车内的实际噪声情况,该数据集在5中不同条件下进行拍摄,分别是:时速 35 公里(开、关窗)、时速 55 公25里(开、关窗)和静止(引擎空转)。
9. MOBIO 数据集
MOBIO 数据集由瑞士 IDIAP 研究所、芬兰奥卢大学、捷克布尔诺理工大学、英国萨里大学和法国阿维尼翁大学团队于 2012 年发布,该数据集基本上全部由记录者手持手机进行拍摄记录,旨在对手机上人脸语音自动识别系统进行评估,改进在移动设备上应用于生物识别技术的研究。该数据集是在不受控的条件下拍摄的,因为拍摄设备在记录人自己手中而不是固定在某一个特定的位置,记录者头部位置、背景、光照等因素都在发生变化。有 150 人参加了数据集构建,得到将近 31000 个话语实例,其语料可以分为三大类:五个提前定义好的问题的答案、对一个随机问题的长约5秒的回答以及提前定义好的一段文本。
10. OuluVS2 数据集
数据集地址
数据集官方说明:
############################# start ###########################
Author: Ziheng Zhou
This is the README document for the OuluVS2 database, a multi-view audiovisual database designed mainly for visual speech recognition (VSR). For details of the database, please read our paper
Anina I, Zhou Z, Zhao G and Pietikainen M (2015) OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis. Proc. IEEE International Conference on Automatic Face and Gesture Recognition (FG 2015), Ljubljana, Slovenia, 1-5.
File List
|
|- README
|
|- transcript_digit_phrase
|
|- transcript_sentence.zip
|
|- cropped_audio.zip
|
|- cropped_mouth_mp4_digit.zip
|
|- cropped_mouth_mp4_phrase.zip
|
|- orig_s{SID}.zip
Basic information of the OuluVS2 database:
- Number of subjects: 53
- Number of camera views: 5 (starting from the frontal, 30 degree, 45 degree, 60 degree to the profile view)
- Number of utterances per subject: 70
During each recording session, a subject was asked to utter
10 fixed 10-digit strings each repeated three times (30 utterances)
10 short phrases each repeated three times (30 utterances)
10 randomly-selected TIMIT sentences each spoken once (10 utterances)
Since most participants were not native English speakers, we intentionally excluded sentences with words that were too difficult for them to pronounce.
Videos in the database are named as
sSID_vVID_uUID.mp4
where letters ‘s’, ‘v’, ‘u’ stand for ‘Subject’, ‘View’ and ‘Utterance’ respectively. Variables SID, VID and UID are the subject, camera-view and utterance indices.
You can find all the original videos in folder ‘orig’. NOTE THAT CURRENT RELEASE ONLY INCLUDES ORIGINAL VIDEOS OF DIGITS AND PHRASES.
In addition, we have, so far, preprocessed videos of DIGITS and PHRASES to remove the head movement which is irrelevant to VSR and cropped off the mouth region. Cropped mouth videos can be found in folders ‘cropped_mouth_mp4_digit’ and ‘cropped_mouth_mp4_digit’, and they are named in the same way as the orginal video files.
Notes:
-
Video data of Subject 29 turned out to be unusable since his mouth was not seen most of the time.
-
Subject 3 repeated the 7th digit string only twice which means there are no videos of the 21st utterance for him.
-
Due to image orientation, cropped mouth images could include some artificial black area. Moreover, lower part of the talking mouth could be outside image in the original videos. See both the original and preprocessed versions of ‘s32_v2_u15.mp4’ for example.
############################# end ###########################
申请先通过邮件与负责人联系,取得登录账号,填写授权文件,即可下载
OuluVS2 数据集是由芬兰奥卢大学团队于2015 年发布,是继 2009 年提出的短语数据集
OuluVS 之后在语句识别领域中的又一高质量数据集,旨在促进唇读的进一步研究。该数据集包含 53 名参与者,记录了将近 4000 个话语实例。同样包括三大类语料:连续数字序列、日常短语和 TIMIT 语句。值得一提的是,OuluVS2 是为数不多的多视角唇读数据集之一,采用 5 个高清摄像头同时拍摄,分别位于说话人的 0、30、45、60、90 度方向,分辨率也达到了很高的 1920 像素*1080 像素。
11. LRS 数据集
LRS 数据集是由牛津大学视觉几何团队于2017 年提出,是继大规模单词数据集 LRW 发布之后,针对句子任务构建的另一大规模唇读数据集。和 LRW 类似,该数据集也来源于 BBC 广播电视节目,同样处理开放世界(句子无任何限制)的问题。数据集包含超过 1000 个说话人,截取将近150000 个话语实例,由于截取时对句子无限制,不同的单词数有将近63000个,数据丰富性极高,更好的适用于基于深度学习进行唇读模型的研究。随后于同年,为了研究侧面图像数据对唇读系统的影响,基于 LRS 的多视角数据集 MV-LRS被提出,在 LRS 的基础上加入了 0~90 度所有角度的镜头,同时数据量也有所保证,达到将近75000 个话语实例。
12.Multi-PIE
CMU的Multi-PIE face数据库包含了337人在5个月内4个时间段内的75万多张图像。研究对象在15个观察点和19个光照条件下拍摄了一系列面部表情的照片。此外,还获得了高分辨率的额叶图像。该数据库总共包含超过305 GB的人脸数据。内容页更详细地描述了数据库。
MultiPie Dataset 是一个多视点人脸图像数据集,其主要用于身份鉴定,是 PIE 数据库的替代品,其包含在 15 个视点下捕获的 337 个主题,其中涵盖共计超过 750,000 个图像,该数据集由卡耐基·梅隆大学于 2009 年发布。
PIE 数据库由卡耐基·梅隆大学于 2000 年收集,其在推动姿势和光照的人脸识别研究具有很大的影响力,尽管 PIE 数据库取得成功,但它有如下缺点:主题数量有限、单个记录会话和捕获的表达式较少。