Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

一、创新点和解决的问题

创新点

设计Region Proposal Networks【RPN】,利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search、EdgeBoxes等方法,速度上提升明显;

训练Region Proposal Networks与检测网络【Fast R-CNN】共享卷积层,大幅提高网络的检测速度。

解决的问题

继Fast R-CNN后,在CPU上实现的区域建议算法Selective Search【2s/image】、EdgeBoxes【0.2s/image】等成了物体检测速度提升上的最大瓶颈。

二、整体框架

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

我们先整体的介绍下上图中各层主要的功能:

1)、Conv layers提取特征图:

作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取input image的feature maps,该feature maps会用于后续的RPN层和全连接层

2)、RPN(Region Proposal Networks):

RPN网络主要用于生成region proposals,首先生成一堆Anchor box,对其进行裁剪过滤后通过softmax判断anchors属于前景(foreground)或者后景(background),即是物体or不是物体,所以这是一个二分类;同时,另一分支bounding box regression修正anchor box,形成较精确的proposal(注:这里的较精确是相对于后面全连接层的再一次box regression而言)

3)、Roi Pooling:

该层利用RPN生成的proposals和VGG16最后一层得到的feature map,得到固定大小的proposal feature map,进入到后面可利用全连接操作来进行目标识别和定位

4)、Classifier:

会将Roi Pooling层形成固定大小的feature map进行全连接操作,利用Softmax进行具体类别的分类,同时,利用L1 Loss完成bounding box regression回归操作获得物体的精确位置.

 

三、网络结构

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

现在,通过上图开始逐层分析

1)Conv layers

Faster RCNN首先是支持输入任意大小的图片的,比如上图中输入的P*Q,进入网络之前对图片进行了规整化尺度的设定,如可设定图像短边不超过600,图像长边不超过1000,我们可以假定M*N=1000*600(如果图片少于该尺寸,可以边缘补0,即图像会有黑色边缘)

①   13个conv层:kernel_size=3,pad=1,stride=1;

卷积公式:

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

所以,conv层不会改变图片大小(即:输入的图片大小=输出的图片大小)

②   13个relu层:激活函数,不改变图片大小

③   4个pooling层:kernel_size=2,stride=2;pooling层会让输出图片是输入图片的1/2

经过Conv layers,图片大小变成(M/16)*(N/16),即:60*40(1000/16≈60,600/16≈40);则,Feature Map就是60*40*512-d(注:VGG16是512-d,ZF是256-d),表示特征图的大小为60*40,数量为512

 

2)RPN(Region Proposal Networks):

为了进一步更清楚的看懂RPN的工作原理,将Caffe版本下的网络图贴出来,对照网络图进行讲解会更清楚

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

(2.1) rpn_cls、 rpn_bbox

Feature Map进入RPN后,先经过一次3*3的卷积,同样,特征图大小依然是60*40,数量512,这样做的目的应该是进一步集中特征信息,接着看到两个全卷积,即kernel_size=1*1,p=0,stride=1;

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

如上图中标识:

①   rpn_cls:60*40*512-d ⊕  1*1*512*18 ==> 60*40*9*2 

逐像素对其9个Anchor box进行二分类

②   rpn_bbox:60*40*512-d ⊕  1*1*512*36==>60*40*9*4

逐像素得到其9个Anchor box四个坐标信息(其实是偏移量,后面介绍)

如下图所示:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgygfy.html