face recognition[翻译][深度学习理解人脸]

本文译自《Deep learning for understanding faces: Machines may be just as good, or better, than humans》。为了方便,文中论文索引位置保持不变,方便直接去原文中找参考文献。

近些年深度卷积神经网络的发展将各种目标检测和识别问题大大的向前推进了不少。这同时也得益于大量的标注数据集和GPU的使用,这些方面的发展使得在无限制的图片和视频中理解人脸,自动执行诸如人脸检测,姿态估计,关键点定位和人脸识别成为了可能。本文中,主要介绍人脸识别上应用的一些深度学习方法。讨论了一个自动人脸识别系统中的各个不同模块以及深度学习在其中扮演的角色。然后讨论了下在人脸识别上深度卷积神经网络尚未解决的一些问题。

1.我们能从人脸上学到什么?

人脸分析是CV中一个有挑战的事情,也一直被研究了20多年[1]。其目标在于从人脸上提取尽可能多的信息,如位置,姿态,性别,ID,年龄,表情等等。这些技术可以应用在如视频监控,手机的主动认证,支付验证等等。
本文主要介绍了近些年基于深度学习的自动人脸验证和识别系统。其中主要包含了三个模块:

人脸检测,用来在图像或者视频中进行人脸的定位。对于一个足够鲁棒的系统来说,人脸检测需要在可变姿态,光照,尺度下进行检测。同时人脸的定位和人脸框的大小应该尽可能精确,不要框到背景部分

关键点检测,用来定位重要的人脸关键点,如眼睛中点,鼻尖,嘴巴两个嘴角。这些点可以用来做人脸对齐,将人脸归一化到规范的坐标系上,以此减轻人脸内在的旋转和缩放带来的影响

特征描述,用于从对齐的人脸上提取足够辨识的信息。

在给定人脸表征基础上,可以通过一个度量方式去计算人脸之间的相似性得分,如果该得分低于阈值,则证明这2个人脸来自同一个人。从1990年代开始,就有很多已经很好工作的人脸验证和识别的方法,不过他们都基于约束条件下。然而这些方法一旦在姿态,光照,分辨率,表情,年龄,背景干扰和遮挡等情况下,准确度就急速下降。而且,视频监控等场景下,目标需要从上百个低分辨率的视频中验证,这就对算法的鲁棒性和实时性提出更严格的要求。
为了解决这些问题,研究者将深度学习引入进来,用来做所需要的特征提取。DCNN已经被证明在图像分析[3]任务上十分强大。在这近5年,DCNN已经用来解决许多CV的问题,如目标识别[3]-[5]和目标检测[6]-[8]。一个典型的DCNN就是多个卷积层和RELU激活函数不断层级重复的网络结构,其能够学到丰富而且具有判别性的表征,DCNN近期已经成功用在如人脸检测[2,9,10],关键点定位[2,10,11],人脸识别和验证[12]。其中一个关键的成功因素仍归功于大量标记的数据如:

用于人脸识别的数据集CASIA-WebFace[13],MegaFace[14,15],NS-Celeb-1M[16],VGGFace[17]

用于人脸检测的数据集WIDER FACE[18]

这些数据集就包含了丰富的可变性,如姿态,光照,表情,遮挡等等。这些都能让DCNN更鲁棒的去学习这些变化并提取其中有价值的特征。

2.在无约束图像中的人脸检测

人脸检测是人脸识别流程中关键的一环,给定一个图片,人脸检测需要提取图片中所有的人脸位置,并且返回每个人脸的框坐标。之前在无约束人类检测中,使用的特征如Haar 小波和HOG特征等都无法在不同分辨率,视角,光照,表情,皮肤颜色,遮挡,化妆等情况下抓取显著的人脸信息。相对于分类器而言,特征提取不好导致的影响会更大。不过随着近些年的深度学习技术和GPU的使用,DCNN可以更好的特征提取。如[3]中所述,在一个大型数据集上预训练的DCNN可以成为一个比较有意义的特征提取器。然后这些深度特征可以用来广泛的作为通常目标和人脸的检测。基于DCNN的人脸检测方法可以分成两个大类: 基于区域的和基于划框的。

基于区域的

基于区域的方法是生成一堆候选框(一张图片大概2k个),然后DCNN用来分类那个是还不是包含人脸的候选框。其中大多数提取候选框的方式是基于[2,10,19]。比如采用slective search[20]先进行候选框生成,然后用DCNN进行特征提取,并用分类器去分类这些候选框是否是人脸。HyperFace[10]和All in one face[2]就是基于区域的方法的。

Faster rcnn
最近主流的特征提取器就是faster rcnn[19]了,其可以同时回归每个人脸候选框的边界坐标。Li[21]等人基于faster rcnn的框架提出了一个多任务人脸检测,其将一个DCNN和一个三维平均脸模型进行整合,这个三维平均脸模型可以用来提升基于RPN的人脸检测性能,这极大的增强了人脸归一化后的候选框修剪和细化。同样的,chen[22]通过训练一个多任务RPN去进行人脸和关键点检测,在减少冗余人脸候选框基础上生成了高质量候选框,尽可能保持高召回率和准确率之间的平衡,这些候选框随后通过检测到的关键点进行归一化,然后使用一个DCNN人脸分类器去改善性能。

基于划框的

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgyjf.html