face recognition[翻译][深度学习理解人脸] (4)

日期：2021-11-22 栏目：程序人生浏览：次

因为本文只专注深度学习的方法，而[56]综述中介绍了基于传统方法，特征上如LBP，Fisher向量等，度量学习上如one-shot similarity(oss)，Mahalanobis度量学习，cosine度量学习，large-margin最近邻，基于属性的分类器和联合贝叶斯（joint bayesian，JB）等。

4.1 使用深度学习对人脸进行鲁棒的特征学习

在人脸识别系统中，学习具有不变性和判别性的特征表征是很关键的一步。深度学习方法已经展示出可以在非常大的数据集上学到紧凑而具有判别性的表征。这里先总结下一些使用深度学习做特征表征学习的方法。
Huang[57]等人抛弃了传统的手动设计特征的方法如LBP等，而是提出基于局部卷积受限玻尔兹曼机上采用卷积深度置信网去学习人脸表征。他们首先基于自然场景下未标记的图片数据集，在无监督基础上学习有用的表征，然后通过分类器（SVM）和度量学习方法(OSS)将这些学到的表征用在人脸验证和识别上。该方法在未使用大规模标记人脸数据集训练的情况下，在LFW数据集上的结果也十分满意。

在早期基于三维空间的DCNN人脸识别的应用是由Taigman提出的DeepFace[58]。在该方法中，使用一个九层的DNN去学习人脸表征，其中包含了超过120百万个参数，且使用了未权重共享的局部连接层，而不是标准的卷积层。采用的训练集是包含4百万张人脸，其中超过4000个ID的数据集。

因为收集大规模标注数据集十分耗时，Sun提出了DeepID结构[59-61]，采用联合贝叶斯方式（JB）去做人脸验证，其中利用了集成学习的方法，里面都是相对DeepFace而言，更浅且更小的深度卷积网络(每个DCNN包含四个卷积层，输入大小为39×31×1)，其使用的数据集是10177个目标的202599张图片。基于大量不同ID的数据集和DCNN基于不同局部和全局人脸块的训练，是的DeepID学到了具有判别性和信息性的人脸表征。该方法也是首次在LFW数据集上超过人类的方法。

Schroff提出一个基于CNN的人脸识别方法叫做FaceNet[62]，其直接优化人脸向量本身而不是如深度学习中那些bottleneck layer。他们基于大致对齐的匹配/非匹配面部块的三元组，使用在线三元组挖掘（online triplet ）方法。他们的数据集是一个大型的专有人脸数据集，由1亿到2亿个面部缩略图组成，包含大约800万个不同的ID。
Yang[13]收集了一个公开的大规模标注人脸数据集，CASIA-WebFace，从IMDB上收集的包含494414个人脸图片10575个ID的数据集，网络参数超过5百万个。该模型也使用联合贝叶斯方法，在LFW上获得了满意的结果。CASIA-WebFace也是一个主流数据集了。

Parkhi[17]同样有一个公开的大规模人脸数据集，VGGFace，包含了2.6百万个人脸，2600个ID。如同大名鼎鼎的VGGNet[24]可以用于做目标识别，他使用了triplet embedding来做人脸验证。使用VGGFace训练的DCNN模型在静态人脸(LFW)和视频人脸(youtube face, YTF)上都获得了不错的结果，且只适用单一的网络结构，并且都已经开源。VGGFace数据集也是一个主流数据集。

在近些年的工作中，AdbAlmageed[63]通过基于DCNN，训练正面，半轮廓和全轮廓姿态，以提高无约束环境下人脸识别性能，解决姿态变化的问题。Masi[64]利用一个3-D可变形模型去增强CASIA-WebFace数据集，通过大量合成的人脸去代替众包注释任务收集数据的过程。DIng[65]采用一个新的triplet loss，从不同网络特征层基于人脸关键点周围进行深度特征融合的方式达到了当时视频上的人脸识别最好。Wen[66]提出了一个新的loss函数，其考虑了每个类别的中心点，并用它作为softmax loss的一个正则约束，基于残差神经网络去学习更具有判别性的人脸表征。Liu[67]基于修改的softmax loss，提出一个新颖的angular loss。它生成的判别性angular 特征表征是基于常见的相似的度量和cos距离进行优化的，该模型在基于更小的训练集上训练的结果获得了可媲美最好模型的结果。Ranjan等 [68]也在最近发布的MS-Celeb-1M人脸数据集的子集上使用缩放的L2范数正则对softmax loss进行训练，作者的工作显示正则后的loss优化了类别之间的angular margin。该方法在IARPA benchmark A(IJB-A)数据集[69]上获得了最好结果。除了常用的每帧视频人脸表征的平均聚合，Yang提出一个神经聚合网络[70]基于多个人脸图像或者人脸视频中人脸帧去执行动态权重聚合，获得了视频人脸表征上简洁而强大的表征。该方法在多个图像集和视频人脸集合上获得了最好结果。Bodla[71]提出一个融合网络，基于两个不同的DCNN模型去组合人脸表征，提升识别性能。

4.2 人脸的判别性度量学习

转载注明出处：https://www.heiqu.com/zwgyjf.html

face recognition[翻译][深度学习理解人脸] (4)

相关推荐