face recognition[翻译][深度学习理解人脸] (6)

UMDFaces[85]和UMDFace Video[35]数据集包含367888个静态图片和82777个ID,以及22075个视频和3107个ID。这些数据集可以用来训练静态和视频的人脸数据集,UMDFace Video中的ID也出现在UMDFaces中,这有助于让模型从静态人脸识别迁移到视频领域。

最近,Bansal[35]研究了一个好的大规模数据集上不同特征,其中涉及到以下问题:

我们可以只在静态图片上训练,然后将其扩展到视频上吗?

更深的数据集是否好于更广的数据集,这里更深表示每个ID的图片增多,更广表示ID的数量很多?

增加标签噪音是否总是能提升深度网络性能?

人脸对齐对于人脸识别是否是必须的?

作者调研了CASIA-WebFace[13],UMDFaces[85]和他的视频扩展[35],Youtube face[82]和IJB-A数据集[69]。他发现DCNN同时在静态图片和视频帧上训练可以获得只在其一上训练有更好的结果。基于这个实验,他发现在更小的模型上,在更广的数据集上训练的结果要好于更深的数据集;而对于更深的模型,更广的数据集效果往往更好。[35]的作者工作显示标签噪音通常损害人脸识别的性能,同时发现人脸对齐有助于人脸识别的性能提升。

4.5 性能总结

本文总结了在LFW和IJB-A数据集上人脸识别和验证算法的性能结果

LFW 数据集
这里采用的人脸验证算法是标准协议,定义3000正对和3000负对,将它们划分到10个不重叠子集中。每个子集包含300个正对和300个负对。他包含7701个图片和4281个ID。如表2,涉及的有DeepFace[58], DeepID2[61], DeepID3[86], FaceNet[62], Yi[13], Wang[87], Ding[88], parkhi[17], Wen[66], Liu[67], Ranjan[68], 和人类的结果

face recognition[翻译][深度学习理解人脸]

IJB-A benchmark
该数据集中即包含图片也包含视频,视频帧如图6

face recognition[翻译][深度学习理解人脸]


通过ROC曲线去衡量人脸验证算法的好坏;用累积匹配特征(cumulative match characteristic,CMC)分数测量封闭集合下人脸识别算法的准确度。另外,IJB-A在十个分片集合上做人脸验证(1:1匹配),每个集合包含大概11748对(1756个正对和9992个负对);类似的,在人脸识别上(1:N搜索)也包含了十个分片集合。在每个集合中,大约有112个训练模板和1,763个预测模板(1,187个真正的预测模板和576个冒名顶替的预测模板)。训练集包含333个ID,测试集包含167个没有重复的ID。不同于LFW和YTF数据集,他们只是用一个负对稀疏集去做人脸验证算法的评估,IJB-A数据集将图像/视频帧划分成训练和测试集和,所以所有可用的正和负对都能用来做评估,同样的,每个训练和预测集合都包含多个模板。每个模板(ID)包含来自多个图像和视频的样本集合。而LFW和YTF数据集只包含由Viola Jones 人脸检测器检测的人脸,而IJB-A数据集包含极端姿态,光照,表情等变化。这些因素使得IJB-A变成一个具有挑战的数据集。

CMC算法和ROC曲线可以用来做不同算法在人脸识别和验证下的性能评估,如表3.

face recognition[翻译][深度学习理解人脸]


除了使用平均特征表征之外,我们还使用媒体平均,即首先平均来自同一个媒体(图像或视频)的特征,然后进一步平均,媒体平均特征,以生成最终特征表征,然后用triplet概率向量[73]。
表3总结了不同算法的得分,其中对比的算法有:

\(DCNN_{casia}\)[87]

\(DCNN_{bl}(bilinear CNN)\)[92]

\(DCNN_{pose}(multipose DCNN模型[63])\)[70]

\(DCNN_{3d}\)[64]

template adaptation(TP)[93]

\(DCNN_{tpe}\)[73]

\(DCNN_{all}\) [2][all in one face]

\(DCNN_{L2+tpe}\)[68]

[91]
每个算法详细的对比在表4

face recognition[翻译][深度学习理解人脸]

5.人脸属性

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgyjf.html