paper 157：文章解读--How far are we from solving the 2D & 3D Face Alignment problem?-(and a dataset of 230,000 3D facial landmarks)

文章：How far are we from solving the 2D & 3D Face Alignment problem?-(and a dataset of 230,000 3D facial landmarks)

作者：诺丁汉大学的Adrian Bulat& Georgios Tzimiropoulos

Github：https://github.com/1adrianb/face-alignment

2D-FAN：https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7

3D-FAN：https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7

2D-to-3D FAN：https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz

3D-FAN-depth：https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth

摘要

在现存2D和3D人脸对齐数据集上，本文研究的这个非常深的神经网络达到接近饱和性能的程度。本文主要做了5个贡献：（1）结合最先进的人脸特征点定位（landmark localization）架构和最先进的残差模块（residual block），首次构建了一个非常强大的基准，在一个超大2D人脸特征点数据集（facial landmark dataset）上训练，并在所有其他人脸特征点数据集上进行评估。（2）我们构建一个将2D特征点标注转换为3D标注，并所有现存数据集进行统一，构建迄今最大、最具有挑战性的3D人脸特征点数据集LS3D-W（约230000张图像）。（3）然后，训练一个神经网络来进行3D人脸对齐（face alignment），并在新的LS3D-W数据集上进行评估。（4）本文进一步研究影响人脸对齐性能的所有“传统”因素，例如大姿态( large pose)，初始化和分辨率，并引入一个“新的”因素，即网络的大小。（5）本文的测试结果显示2D和3D人脸对齐网络都实现了非常高的性能，足以证明非常可能接近所使用的数据集的饱和性能。训练和测试代码以及数据集可以从 https://www.adrianbulat.com/face-alignment/%20下载。

引言

随着深度学习和大规模注释数据集的发展，近年的工作已经显示出即使在最具挑战性的计算机视觉任务上也达到前所未有的准确性。在这项工作中，本文专注于特征点定位（landmark localization），尤其是人脸特征点定位，即：人脸对齐（face alignment），“人脸对齐”也可以说是过去几十年来计算机视觉中的研究热点。

目前，关于使用卷积神经网络（CNN）的特征点定位的研究，大大推动了其他领域的界限，例如人体姿态估计，但目前尚不清楚在人脸对齐方面取得怎样的成果。

历史上，根据任务的不同，有不同的技术已被用于特征点定位。例如，在神经网络出现之前，人体姿态估计的工作主要是基于图结构（Pictorial Structure）和各种复杂的扩展（Extension），因为它们能够模拟大的外观变化，适应广泛的人类姿势。这些方法虽然没有被证明能够实现用于人脸对齐任务的级联回归方法（Cascaded Regression Method）表现出的高精确度，但另一方面，级联回归方法的性能在初始化不准确的情况下，或有大量的自我封闭的特征点或大的平面内旋转时会变差。

最近，基于热图回归（Heatmap Regression）的完全卷积神经网络架构彻底改变了人体姿态估计，即使对于最具挑战性的数据集也得到非常高的准确度。由于它们对端到端训练和人工工程的需求很少，这种方法可以很容易地应用于人脸对齐问题。

使用2D-3D方法构建最大数据集(LS3D-W)

作者表示，按照这个路径，“我们的主要贡献是构建和训练这样一个强大的人脸对齐网络，并首次调查在所有现有的2D人脸对齐数据集和新引入的大型3D数据集上距离达到接近饱和性能（saturating performance）有多远”。

Contributions(具体的贡献）：

1. 首次构建了一个非常强大的基准（baseline），结合state-of-the-art的特征点定位架构和state-of-the-art的残差模块（residual block），并在非常大的综合扩展的2D人脸特征点数据集训练。然后，我们对所有其他2D数据集（约230000张图像）进行评估，分析真正解决2D人脸对齐问题还有多远。

2. 为了解决3D人脸对齐数据集少的问题，本文进一步提出了一种将2D注释转换为3D注释的2D特征点CNN方法，并使用它创建LS3D-W数据集，这是目前最大、最具挑战性的3D人脸特征点数据集（约230000张图像），是通过将现存的所有数据集统一起来得到的。

3. 然后，本文训练了一个3D人脸对齐网络，并在新的大型3D人脸特征点数据集进行评估，实际分析距离解决3D人脸对齐问题尚有多远。

4. 本文进一步研究影响人脸对齐性能的所有“传统”因素，例如大姿态（large pose），初始化和分辨率，并引入“新的”因素，即网络的大小。

5. 本文测试结果显示，2D和3D人脸对齐网络都实现了非常高准确度的性能，这可能是接近了所使用的数据集的饱和性能。

2D-FAN结构：

通过堆叠四个HG（HourGlass）构建的人脸对齐网络（Face Alignment Network, FAN），其中所有的 bottleneck blocks（图中矩形块）被替换为新的分层、并行和多尺度block。

方法及数据：2D、3D标注及2D-3D转换都接近饱和性能

文章首先构建人脸对齐网络“FAN”（Face Alignment Network），然后基于FAN，构建2D-to-3D-FAN，也即将给定图像2D面部标注转换为3D的网络。文章表示，据测试所知，在大规模2D/3D人脸对齐实验中训练且评估FAN这样强大的网络，还尚属首次。

他们基于人体姿态估计最先进的架构之一HourGlass（HG）来构建FAN，并且将HG原有的模块bottleneck block替换为一种新的、分层并行多尺度结构（由其他研究人员提出）。