【论文学习笔记】百度人脸识别算法 PyramidBox: A Context-assisted Single Shot Face Detector

日期：2021-12-06 栏目：程序人生浏览：次

论文地址：https://arxiv.org/pdf/1901.02350.pdf

Github地址：https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/face_detection

PyramidBox是WIDER FACE人脸检测的三料冠军，先看一下它的效果吧。

【论文学习笔记】百度人脸识别算法 PyramidBox: A Context-assisted Single Shot Face Detector

图中的1000张人脸被识别出890张，可以看出PyramidBox对比较小的、或者部分遮挡的人脸均有比较好的识别效果。

该论文的可概括为以下5点：

1. 本文提出了一种基于 anchor 的语境辅助方法，即 PyramidAnchors，从而引入有监督的信息来学习较小的、模糊的和部分遮挡的人脸的语境特征。

2. 设计了低层次特征金字塔网络 ( LFPN ) 来更好地融合语境特征和面部特征。同时，该方法可以在单次拍摄中较好地处理不同尺度的人脸。

3. 提出了一种语境敏感的预测模型，该模型由混合网络结构和最大输入输出层组成，从融合特征中学习准确的定位和分类。

4. 提出了可以感知尺度的数据-anchor-抽样策略，改变训练样本的分布，重点关注较小的人脸。

5. 在通用人脸检测基准 FDDB 和 WIDER FACE 上，达到了当前最佳水平。

Low-level Feature Pyramid Layers（LFPN）

PyramidBox是基于anchor的目标检测网络，主架构采用了与S3FD相同的extended VGG16。FPN中提出多尺度特征融合的方式强化特征重用，提高特征图的映射，PyramidBox借鉴了这种思想，提出了low-level的FPN（LFPN）。

【论文学习笔记】百度人脸识别算法 PyramidBox: A Context-assisted Single Shot Face Detector

FPN的特征融合是从最顶层开始的，PyramidBox的作者认为最顶层的特征图感受野太大了，对于检测较小面孔没什么益处，反而可能会引入噪声。LFPN选择从从中间层开始构建自顶向下的结构，其感受野差不多是输入图像尺寸的一半。我们从中也能看出来，自顶向下的融合是从conv6（论文里是fc6和fc7转换为conv fc层）开始的，没有从conv7（论文里是conv6_1和conv6_2）和conv8（论文里是conv7_1和conv7_2）这两个最顶层开始。

def _low_level_fpn(self): """ Low-level feature pyramid network. """ def fpn(up_from, up_to): ch = up_to.shape[1] b_attr = ParamAttr(learning_rate=2., regularizer=L2Decay(0.)) conv1 = fluid.layers.conv2d( up_from, ch, 1, act=\'relu\', bias_attr=b_attr) if self.use_transposed_conv2d: w_attr = ParamAttr( learning_rate=0., regularizer=L2Decay(0.), initializer=Bilinear()) upsampling = fluid.layers.conv2d_transpose( conv1, ch, output_size=None, filter_size=4, padding=1, stride=2, groups=ch, param_attr=w_attr, bias_attr=False, use_cudnn=False) else: upsampling = fluid.layers.resize_bilinear( conv1, out_shape=up_to.shape[2:]) conv2 = fluid.layers.conv2d( up_to, ch, 1, act=\'relu\', bias_attr=b_attr) if self.is_infer: upsampling = fluid.layers.crop(upsampling, shape=conv2) # eltwise mul conv_fuse = upsampling * conv2 return conv_fuse self.lfpn2_on_conv5 = fpn(self.conv6, self.conv5) self.lfpn1_on_conv4 = fpn(self.lfpn2_on_conv5, self.conv4) self.lfpn0_on_conv3 = fpn(self.lfpn1_on_conv4, self.conv3)

转载注明出处：https://www.heiqu.com/zwdyws.html

【论文学习笔记】百度人脸识别算法 PyramidBox: A Context-assisted Single Shot Face Detector

相关推荐