face recognition[翻译][深度学习理解人脸] (2)

基于划框的方法是在给定尺度基础上,在feature map的每个位置上计算对应的人脸检测得分和候选框坐标。该方法比区域方法要快,而且可以只适用卷积操作就能实现。不同尺度上进行检测通常是通过构建一个图像金字塔来完成。使用该方式的有DP2MFD[9]和DDFD[25],Faceness[26]在全人脸响应基础上加上半脸响应,并基于空间配置将它们结合起来,最后去决定人脸得分,Li[27]提出了一个在多分辨率级联结构,可以快速的在低分辨率阶段上拒绝背景目标,然后在高分辨率阶段就只剩下少量高难度的候选框了

single shot 检测器

Liu[8]提出了ssd结构,该ssd结构是基于划框的一种检测器,它不通过生产图像金字塔形式,而是利用了网络结构本身内在的金字塔结构,通过在不同网络层进行池化,将其输送到最后一层来完成人脸分类和候选框回归。因为检测是一次前向传输,所以SSD总的计算时间要低于faster rcnn。也有一些基于SSD这种想法的网络结构,如Yang提出ScaleFace[28]从网络的不同层提取尺度信息,然后将它们融合到最后一层以完成人脸检测。Zhang提出S3FD[29],其使用一个尺度均衡的框架和尺度补偿的锚点匹配策略来提升对小脸的检测效果。图1就是该方法的架构。

face recognition[翻译][深度学习理解人脸]


因有大量可以训练的无约束人脸检测数据集的存在,如FDDB[30]数据集是主流的无约束人脸检测数据集,它包含了2,845张图片,一共5,171张人脸,都来自yahoo.com的新闻报道。MALF[31]数据集包含了5,250张高分辨率图像,其中包含了11,931张人脸,这些图片来自Flickr和baidu搜索引擎。这些数据集都在遮挡,姿态,光照下有不少的变化。
WIDER[18]人脸数据集包含32,203张图片,其中50%用于训练,10%用于验证。该数据集中的人脸在姿态,光照,遮挡,尺度上也有不少变化。基于该数据集训练的人脸检测去获得了更好的性能[19,23,28,29,32,33].该数据集评估的结果揭示了,在拥挤的环境下寻找小脸仍然是一个挑战。近期有Hu[33]等人提出的方法显示上下文信息有助于检测小脸。它可以从更低层级特征中抓取语义信息并且从更高层级特征中抓取上下文信息,从而去检测小脸。如图2.

face recognition[翻译][深度学习理解人脸]


因本文篇幅所限,这里就不讨论传统的人脸检测方法了,可以参考[34],其中介绍了更多传统的级联方法和可变形部件模型(deformable part-based model,DPM)。另外,对于有多个脸的视频,可以通过人脸关联方式去对每个对象进行人脸追踪。可以参考[12],其中有关于基于视频的人脸识别。图3(a)提供了基于FDDB数据集上不同人脸检测方法的性能对比

face recognition[翻译][深度学习理解人脸]

3.关键点检测和头部角度检测

人脸关键点检测同样也是人脸识别和验证中一个重要的预处理部分。人脸关键点如眼睛中心,鼻尖,嘴角等,可以用来将人脸对齐到规范化坐标中,这样的人脸归一化有助于人脸识别[35]和属性检测。头部姿态评估同样也是基于姿态的人脸分析所需要的过程。这两个问题近些年也有不少研究成果,大多数现有的人脸关键点定位方法用的无非是:

基于模型的方法:

基于级联回归的方法

wang[36]有个基于传统方法的综述,包含了主动外观模型(active appearance model, AAM),主动形状模型(active shape model, ASM),受限局部模型(constrained local model, CLM),和一些回归方法如有监督下降方法(supervised descent method,SDM
)。Chrysos[37]同样总结了在视频下使用传统人脸检测方法进行人脸关键点追踪的工作。这里我们只是总结近些年基于DCNN进行人流检测的方法。

基于模型的

基于模型的方法,如AAM,ASM,CLM等,是在训练过程中学习一个形状模型,然后用它去拟合测试过程中新的人脸。如Antonakos [43]提出了一种方法,先从区域中提取多个块,然后在块之间使用多个基于图的成对正态分布(高斯马尔可夫随机场)方式,对人脸的形状进行建模。然而所学到的模型还是无法很好适应复杂的姿态,表情,光照下变化,同样的,其对梯度下降优化中的初始化也十分敏感。所以,大家也考虑如何基于3维空间进行人脸对齐。Jourabloo提出PIFA[44],使用三维空间中进行级联回归的方式去预测三维到二维投影矩阵的系数和基准形状系数。另一个来自Jourabloo[45]的工作是将人脸对其问题看成一个密度三维模型拟合问题,其中照相机映射居住和三维形状参数都通过一个基于DCNN回归器级联的方式去评估。Zhu提出的3DDFA[46],采用一个密度三维人脸模型去拟合图像,其中的深度数据采用Z-buffer方式去建模。

基于级联回归的方法

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgyjf.html