背景及概述
近几年来,随着一些技术的出现(在人脸识别方面取得了一系列进展),甚至超过了人脸验证性能(如:C. Lu and X. Tang, “Surpassing human-level face verification performance on LFW with GaussianFace,” in AAAI, 2015)。
认识到在现实世界条件下,目前的人脸验证系统仍然存在缺陷,最近有提出了一个新的基准:IARPA Janus基准A(IJBA)(B. F. Klare, B. Klein, E. Taborsky, A. Blanton, J. Cheney, K. Allen, P. Grother, A. Mah, M. Burge, and A. K. Jain, “Pushing the frontiers of unconstrained face detection and recognition: IARPA Janus benchmark A,” in Proc. Conf. Comput. Vision Pattern Recognition. IEEE, 2015, pp. 1931–1939)。IJB-A是为了鼓励研究无约束人脸识别的新方面而设计的。其中一个方面是强调比以前的基准(最显著的是LFW)更广泛的面部姿势。因此,IJB-A代表了更具有挑战性的观看条件,并为人脸识别系统清除设置了一个高架。
IJB-A面部姿势的范围更广,如上图1所示。它显示了面部yaw angles的分布,比较了LFW中的人脸以及最近和更大的CASIA WebFace集合和IJB-A中的脸。显然,IJB-A图片涵盖了更广泛的头部姿态。
IJB-A分布极端边缘的两个凸起进一步表明,在设计它时,特别强调的是注入大量的剖面图和近剖面视图。下图说明了这些极端姿势的一个含义,它提供了从LFW和IJB-A中提供的yaw angles范围中选择的示例面。每个例子都伴随着它的正面(对齐,正面)视图。这些例子强调了,将这些近轮廓的观点与正面位置相一致的挑战。该图显示,在近侧面视图中处理图像时,单一的正面参考坐标系是不够的;将侧面绘制到侧面参考视图中会带来更少的伪影,并更好地保留面部外观。
除了强调姿势之外,IJB-A还引入了集对集匹配的概念,其中集是由异质媒体组成的:而不是像LFW基准那样匹配两个单一图像,或者像YouTube Faces(YTF)基准那样匹配两个视频中的两组帧,IJB-A匹配两组混合媒体类型的图像。每组包含来自多个来源的图像和视频。这种集合匹配的具体情况也是为了反映真实世界的面部验证设置,其中可以收集来自多个来源的视觉信息,并用来表示主题外观。由于集合可以包含多个姿势的主题图像,因此考虑如何处理集对集匹配以及姿态变化如何参与匹配过程变得非常重要。由于现有的关于无约束人脸识别的大部分工作主要是在LFW上开发和测试的,因此对极端姿势的关注从来都不是真正必要的。
据我们所知,正如其他人所指出的(如:A. RoyChowdhury, T. Lin, S. Maji, and E. G. Learned-Miller, “Face identification with bilinear CNNs,” in Winter Conf. on App. of Comput. Vision, 2016.),以往的工作从未直接讨论过极端姿势。因此,我们的工作旨在解决广泛的姿态变化,大量的近侧面视图,并通过设置匹配验证。
重 点
接下来说说具体的创新:
① 人脸识别的姿态感知模型:提出了一种人脸识别方法,该方法明确考虑并处理姿态变化,包括极端、近侧面视图中的人脸。新方法训练了多个特定姿态的模型,并在匹配不同姿态的人脸时有效地利用了这些模型。大多数以前的方法只依赖于单一的正面姿态模型(如:D. Wang, C. Otto, and A. K. Jain, “Face search at scale: 80 million gallery,” arXiv preprint, vol. arXiv:1507.07242, 2015. [Online]. Available: http://arxiv.org/abs/1507.07242),可能通过正面化使图像正常化。我们也说明了为什么这些方法不能应用于更广泛的姿态变化。与这些方法相反,新方法是通过学习体位感知模型(PAMS)来处理姿势的变化。PAMS还允许克服缺乏姿态的训练集的主要限制,从而形成一个更好的训练系统。
② 多个理想坐标的out-of-plane face对准:将正面化扩展到多姿态,以减轻在极端姿态下正面化人脸时产生的严重伪影(之前的第二个图也展示了这一点)。现在开发了一条完整的人脸识别流水线,实现了对姿态敏感的人脸识别。
③ 协同训练:提出了一种有效训练深度卷积神经网络(CNN)姿态感知模型的方法。共同训练是为了解决训练CNN模型的问题,在极端姿势中,只有相对较少的例子可以接受训练(例如,第一个图的(b),为了澄清这一点,将新方法与最近使用多任务学习的多视点感知器(MVP)的工作区分开来。这两种方法都训练深度网络在视图之间进行内插,而PAM则使用呈现技术来生成合成的新视图。
MULTIPLE ALIGNMENTS
-
扩展训练集姿态分布
学习多个姿态感知模型的一个关键挑战是,用于训练每个姿态的有效CNN的数据有限,特别是在开发一个用于处理极端视图中的面孔的系统时,比如IJB-A基准。本次使用Casia WebFace集合作为训练集。虽然它比LFW大的多,但是它仍然对正面的姿态有强烈的偏见,并且它包含的近侧面图像的数量非常有限。
与依赖于多任务学习的方法和单一网络建模身份和观点的方法相反(如:J. Yim, H. Jung, B. Yoo, C. Choi, D. Park, and J. Kim, “Rotating your face using multi-task deep neural network,” in Proc. Conf. Comput. Vision Pattern Recognition, 2015.),新方法独立的对待每种类型的对齐和数据。也就是说,学习了每种类型的排列(平面内和平面外)和姿态分布的每一种模式的具体模型。除了允许在不同视角下更好的建模表象之外,这种方法的一个主要优点是它允许网络协同训练,从而提高了学习特性的可转移性。发现这对于推广到其他数据集特别重要。然而,这种方法假设每个模型都有足够的示例可供训练,而CASIA的情况则并非如此。
为了解决这一问题,新方法自动扩展了CASIA训练集中面部姿势的分布,以便产生包含从正面到全侧面范围的示例。为此,首先将CASIA偏角的范围划分为子集。然后,每个子集中的人脸将被人为的映射到极端姿态。
- In-plane alignment models
新方法将这些模式用于二维平面内对准,如下所示。
通过将数据集划分为两类:姿态变化小的近正面和姿态变化高的侧面面,将p(Ψ | I)表示为双模态分布。特别是,使用Eq中的图像赋值来划分图像。如果图像属于第三模式侧面,则将其分类为侧面,而正面图像则为等高线。这样,CASIA数据集被划分成两个独立的子集,用于训练两个平面内对齐图像的CNN模型。
把它们表示为PAMin-f和PAMin-p。此外,由于正面图像与侧面是分开的,可以对每个集合使用不同的理想目标坐标。正面图像是使用最可靠的正面脸标记对齐的,而侧面图像,其中一半的脸不那么明显,是通过鼻尖和两只眼睛的中心对齐的。对于这两种对齐,使用一个非反射相似变换S(s;θ;tx;ty)。每组的对准参数是通过标准技术恢复的,使用检测到的和参考的特定于每一对齐的关键点来求解线性方程组。
- Out-of-plane pose models
在实际应用中,将目标分布预先设置为正面(0◦)、半轮廓(40◦)和全轮廓模式(75◦)。训练图像被映射到这些模式中的一个或多个,其方式提供了在生成良好呈现的脸和生成足够的侧视图之间的权衡。
具体地,根据其估计的面部姿态和下图中的有向图将图像呈现到新视图;图中的每个边缘表示从某个输入姿态到目标姿态的绘制过程。因此,例如,中间模式的图像(属于平均yaw 16.50°的集群)呈现为侧面、半侧面和正面视图,而属于正面模式的图像只呈现为正面和半轮廓视图。该过程产生合成图像,为目标分布中的每一种模式提供了充分的示例。训练数据增加的因素是分配给每个源模式的图像数量和进入目标节点的边缘数的函数。在这个过程之后,我们可以训练三个额外的网络,每个模式的新的期望的姿态分布一个;即PAMout-0,PAMout-40和PAMout-75。
Fine-Tuning PAMs
姿态感知人脸识别
对准是由姿势引导的。(左)图像是平面内对齐的正面或侧面视图。(右)这种方法只将脸呈现近距离的姿势。如果脸是正面的,将图像呈现到正面和半侧面;如果脸接近侧面,则呈现为侧面和半侧面。
Landmark Influence on Face Recognition in IJB-A
各种深度特征组合在IJB-A上的识别结果
各种PCM成分在IJB-A上的识别结果
各种方法在IJB-A上的识别结果比较