YOLOv1虽然检测速度快,但检测精度不如RCNN,YOLOv1定位不够准确,召回率也低。于是YOLOv2提出了几种改进策略来提升YOLO模型的定位准确度和召回率,并保持检测速度。
Better
Batch Normalization:加快收敛并起到正则化效果,防止过拟合。
High Resolution Classifier:在ImageNet数据上使用\(448\times448\)输入来finetune。
Convolutional With Anchor Boxes:借鉴Faster R-CNN中RPN的anchor boxes策略,预测offset而不是coordinate。
Dimension Clusters:采用k-means来替代人工选取anchor。并使用下式来度量距离。
\[d(box,centroid)=1-IOU(box, centroid)\]
Direct location prediction:改变了预测bbox的计算公式
Fine-Grained Features:小物体需要更精细的特征图。采用passthrough层将高分辨率特征concat低分辨率特征,类似于ResNet。
Multi-Scale Training:每隔10batch,网络随机选择新的图像尺寸。
Faster
Darknet-19
Training for classification
Training for detection
Stronger
Hierarchical classification
Dataset combination with WordTree
Joint classification and detection
网络架构YOLOv3: An Incremental Improvement
核心思想Bounding Box Prediction:和v2一样使用聚类来获得anchor并预测bbox坐标。
Class Prediction:不使用softmax,使用二元交叉熵进行类别预测。
Predictions Across Scales:跨尺度预测,类似FPN使用3个尺度,预测为\(N\times N\times[3*(4+1+80)]\),4个box offsets、1个obj prediction和80个类prediction。
Feature Extractor:Darknet-53,加入了Residual。
网络架构paper
[1]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[2]Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[3]Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.
[4]Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
blog
目标检测|YOLO原理与实现
目标检测|YOLOv2原理与实现(附YOLOv3)
目标检测|SSD原理与实现
你真的读懂yolo了吗?
artifical-intelligence
【YOLO】yolo v1到yolo v3
What do we learn from single shot object detectors (SSD, YOLOv3), FPN & Focal loss (RetinaNet)?