因为人脸对齐是一个回归问题,所以近些年就提出了不少基于回归的方法。通常而言,这些方法学习一个模型去直接将图像外观映射到目标输出上。然而,这些方法依赖于局部描述子的鲁棒性。Sun[47]提出一个基于精心设计的DCNN的级联方法,在每一个阶段,多个网络的输出被融合,从而进行关键点的评估,从而获得不错的效果。Zhang[48]提出一个从粗粒度到细粒度的自动编码器网络,其通过级联几个序列堆叠的自动编码器网络(SAN),前面的SAN用于预测每个人脸关键点的粗略位置,然后后续的SAN通过在更高分辨率基础上基于当前检测的结果提取局部特征,并将该特征作为网络的输入,从而进行关键点的修正。Kumar[11]通过精心设计一个单一的DCNN结构去预测关键点,并获得了更好的效果,如图4。
Xiong[49]提出了领域依赖下降映射(domain-dependent descent map)。Zhu[38]观察到优化基本形状系数和投影之间并不是直接因果关系,因为较小的参数误差不一定等于较小的对准误差。因此他们提出了CCL[38],即基于头姿态和领域选择的回归器(head-pose-based and domain selective regressors),首先基于头部姿态将优化领域划分到多个方向上,并将多个领域回归器的结果通过组成评估函数(composition estimator function)结合起来。Trigeorigis[50]提出基于卷积递归神经网络对回归器进行端到端的学习,并将其用在级联回归框架中。他避免了独立训练每个回归器的问题。Bulat[51]提出了一个DCNN结构,首先进行人脸的部分检测,即使用DCNN的前面几层的特征生成的得分map进行粗略的定位每个人脸关键点,然后通过一个回归分支去对关键点进行修正。因此该算法对检测到的人脸框质量不敏感,而且系统可以端到端的训练。Kumar[52]同样提出了一个在无约束条件下高效的去做关键点估计和姿态预测,其主要通过学习一个热力图的方式去解决人脸对齐问题,这里热力图中的值表示概率值,意在表示在具体位置上某个点存在的概率。
另一边,不同的数据集也提供了不同的关键点标注,300 Faces in the Wild database(300 W) [53] 已经成为一个benchmark,用于衡量不同的关键点方法的性能,它包含了超过12000张带有68个关键点的图片,包括Labeled Face Parts in the Wild[36], Helen [36], AFW [36], Ibug [36], and 600 test images.(i.e., 300 indoor and 300 outdoor.)
除了使用二维变换进行面部对齐之外,Hassner等 [54]提出了一种在通用三维人脸模型的帮助下使面部正面化的有效方法。 然而,该方法的有效性也高度依赖于检测到的面部关键点质量(即,当面部关键点质量差时,该方法通常会引入错误信息)。另外,也有不少方法是基于多任务(multitask learning,MTL)角度去做人脸检测,它们都是同时训练一个人脸检测和对应的人脸关键点估计。MTL有助于网络训练更鲁棒的特征,因为网络得到了额外的监督。例如从关键点获取的眼睛中心和鼻尖有助于网络判别人脸的结构。Zhang[32],Chen[22],Li[21]和HyperFace[10]都采用这样的思路,All in one face[2]基于MTL,将任务扩展到人脸验证,性别,笑容和年龄的估计上,图3(b)展现了基于AFW[55]数据集下不同算法对关键点估计的性能对比。
4.人脸识别和验证这部分介绍关于人脸验证和识别的工作,图5中,介绍了使用DCNN进行人脸验证和识别的训练及测试流程。
在其中有2个重要的组成部分:
鲁棒的人脸表征;
一个判别分类模型(人脸识别)或者相似性度量(人脸验证)。