读论文系列：Object Detection CVPR2016 YOLO

日期：2022-06-29 栏目：程序人生浏览：次

YOLO detection system

YOLO，You Only Look Once，摒弃了RCNN系列方法中的region proposal步骤，将detection问题转为一个回归问题

网络结构

输入图片：resize到448x448

整张图片输入卷积神经网络（24层卷积+2层全连接，下面这张示意图是Fast YOLO的）

CNN

将图片划分为SxS个格子，S=7

输出一个SxS大小的class probability map，为图片上每个格子所属的分类

Model

输出为每个格子输出B个bounding box，每个bounding box由x,y,w,h表示，为每个bounding box输出一个confidence，即属于前景的置信度

于是输出可以表示为一个SxSx(B*(4+1)+C)的tensor，训练只需要根据数据集准备好这样的tensor进行regression就行

对所有bounding box按照confidence做非极大抑制，得到检测结果

训练 Loss

YOLO Loss Function

前两行为定位loss，λcoord为定位loss的权重，论文中取5

第三行为一个bounding box属于前景时的置信度回归loss，

当格子中有对象出现时，真实Ci为1，

1ijobj是一个条件表达式，当bounding box“负责(is responsible for)”图中一个真实对象时为1，否则为0，

所谓“负责”，指的是在当前这个格子的所有bounding box中，这个bounding box与真实的bounding box重叠率最大

第四行为一个bounding box属于背景时的置信度回归loss，

为了避免负样本过多导致模型跑偏， λnoobj=0.5，

1ijnoobj是一个条件表达式，为1ijobj取反

于是我们可以发现一个格子的两个bounding box的分工：一个贡献前景loss，一个贡献背景loss ，不论是前景背景box，我们都希望它们的confidence接近真实confidence，实际上，如果 λnoobj=1，第四五行可以合并为一项求和，但由于背景box太多，所以才单独拆开加了权重约束

第五行为分类loss，1iobj是一个条件表达式，当有对象出现在这个格子中，取1，否则取0

YOLO里最核心的东西就讲完了，其实可以把YOLO看作固定region proposal的Faster RCNN，于是可以省掉Faster RCNN里region proposal部分，分类和bounding box regression跟Faster RCNN是差不多的

细节 Leaky Relu

网络中只有最后的全连接层用了线性的激活函数，其他层用了leaky Relu：f(x)=max(x, 0.1x)

对比Relu和leaky Relu

Relu