人脸关键点检测10——FAN

《How far are we from solving the 2D & 3D Face Alignment problem? (and a dataset of 230,000 3D facial landmarks)》

ICCV2017，诺丁汉大学，FAN

1.引言：
cascaded regression methods 在人脸对齐上取得不错的效果，但是当存在 large (and unfamiliar) facial poses（也就是一部分特征点 self-occluded landmarks or large in-plane rotations）cascaded regression methods 效果就不太好。近年来 fully Convolutional Neural Network architectures based on heatmap regression have revolutionized human pose estimation，于是沿着这个思路来做人脸对齐。
本文主要有以下5个贡献:
1) 结合最先进的人脸特征点定位（landmark localization）架构和最先进的残差模块（residual block），首次构建了一个非常强大的基准，在一个超大2D人脸特征点数据集（facial landmark dataset）上训练，并在所有其他人脸特征点数据集上进行评估；
2) 我们构建一个将2D特征点标注转换为3D标注，并所有现存数据集进行统一，构建迄今最大、最具有挑战性的3D人脸特征点数据集LS3D-W（约230000张图像）；
3）基于 LS3D-W，我们训练了一个 3D 人脸对齐网络，并在这个数据库上评估了 3D 人脸对齐；
4）我们深入分析了影响人脸对齐的各个因素，并引入了一个新的因素：网络规模 the size of the network ；
5）我们发现不管是2D 人脸对齐网络还是3D 人脸对齐网络在目前的数据库上性能都不错，可能接近目前数据库性能上的饱和。

2.相关工作：
2D face alignment：这里主要使用的是 cascaded regression 方法，基本解决可控人脸姿态的数据库 LFPW , Helen and 300-W
CNNs for face alignment：cascade CNN；multi-task learning；recurrent neural networks ；
Transferring landmark annotations 数据集的迁移学习

3.Datasets
当前 2D 3D 人脸对齐数据库的一些情况
人脸关键点检测10——FAN
度量方法：
一般使用的度量方法是 the metric used for face alignment is the point-to-point Euclidean distance normalized by the interocular distance （对大角度侧脸数据不友好）；
这里我们改进了一下度量方式:normalize by the bounding box size. In particular, we used the Normalized Mean Error（用框来归一化）。
人脸关键点检测10——FAN
4.网络结构：
2D-FAN、3D-FAN结构：通过堆叠四个HG构建的人脸对齐网络（Face Alignment Network ，FAN），其中所有的 bottleneck blocks（图中矩形块）被替换为新的分层、并行和多尺度block。

基于人体姿态估计最先进的架构之一HourGlass（HG）来构建FAN，并且将HG原有的模块bottleneck block替换为一种新的、分层并行多尺度结构（由A. Bulat and G. Tzimiropoulos提出的）。
注：《Binarized convolutional landmark localizers for human pose estimation and face alignment with limited resources》
文章首先构建人脸对齐网络“FAN”（Face Alignment Network），然后基于FAN，构建2D-to-3D-FAN，也即将给定图像2D面部标注转换为3D的网络。文章表示，据测试所知，在大规模2D/3D人脸对齐实验中训练且评估FAN这样强大的网络，还尚属首次。
人脸关键点检测10——FAN
2D-to-3D-FAN网络架构：基于人体姿态估计架构HourGlass，输入是RGB图像和2D面部坐标，输出是对应的3D面部坐标。
Label: 对一个2D的关键点，包含一个2D Gaussian with std=1px centerd 在每个关键点位置。