基于深度学习的图像识别模型发展

日期：2021-10-13 栏目：程序人生浏览：次

AlexNet：(2012)主要贡献扩展 LeNet 的深度，并应用一些 ReLU、Dropout 等技巧。AlexNet 有 5 个卷积层和 3 个最大池化层，它可分为上下两个完全相同的分支，这两个分支在第三个卷积层和全连接层上可以相互交换信息。它是开启了卷积神经网络做图像处理的先河。

VGG-Net：2014年。该网络使用3×3卷积核的卷积层堆叠并交替最大池化层，有两个4096维的全连接层，然后是softmax分类器。16和19分别代表网络中权重层的数量。相比于 AlexNet 有更小的卷积核和更深的层级。VGG 最大的问题就在于参数数量，VGG-19 基本上是参数量最多的卷积网络架构。

ResNet：2015年。该网络使用残差模块来组成更复杂的网络（网络中的网络），使用标准随机梯度下降法训练。与VGG相比，ResNet更深，但是由于使用全局平均池操作而不是全连接密集层，所以模型的尺寸更小。

Inception：2015年。它没有如同 VGG-Net 那样大量使用全连接网络，因此参数量非常小。增加了网络的深度的同时也增加了网络的宽度，该网络使用不同大小的卷积核提取特征，同时计算1×1、3×3、5×5卷积，然后分别把他们的结果concatenate（不同卷积操作输出的feature map的大小要相同），然后将这些滤波器的输出沿通道维度堆叠并传递到下一层。因为 1*1、3*3 或 5*5 等不同的卷积运算与池化操作可以获得输入图像的不同信息，并行处理这些运算并结合所有结果将获得更好的图像表征。问题是计算量太大。

Inception v1：论文：Going deeper with convolutions，

Inception v2

Inception v3

Inception v4

Inception-v4编写于2016年

Inception-ResNet

Xception：2016年。该网络是Inception网络的扩展，使用了深度可分离卷积运算。其参数数量与Inception-v3相同，由于更高效地利用模型参数，该网络性能获得提升并在大型图像分类数据集胜过Inception-v3。

AlexNet

《ImageNet Classification with Deep Convolutional Neural Networks》

详解：深度学习卷积神经网络-AlexNet

　　AlexNet：2012年产生，将错误率从原来的25%降到16%，

基于深度学习的图像识别模型发展

　　这个网络由上下两部分组成。输入的图像会经过5层卷积层（依次是11*11卷积、5*5卷积，3个3*3卷积），有些卷积层后面还使用了池化层。5层卷积之后连接了3层全连接层。由于该网络是由Alex 设计完成的，所以现在一般将此网络简称为AlexNet 。

　　AlexNet的成功得益于以下几个方面：

训练了较深层的卷积神经网络。

ImageNet 提供了大量训练样本，此外还使用了数据增强技术，因此神经网络的过拟合现象不严重。

使用了dropout 等技术，进一步降低了过拟合。

VGG

《Very Deep Convolutional Networks for Large-Scale Image Recognition》

详解：一文读懂VGG网络

homepage：Visual Geometry Group Home Page

　　2014年产生，将错误率降到了7%，在原始的论文中，作者共训练了6 个网络，分别命名为VGG-A 、VGG-A-LRN 、VGG-B 、VGG-C 、VGG-D 幸日VGG-E ，在实际应用中，由于VGG-D和VGG-E效果最好，而且VGG-D有16层，VGG-E有19层，所以他们又被分别简称为VGG16和VGG19。VGG19 比VGG16 准确率更高，但相应地计算量更大。

基于深度学习的图像识别模型发展

　　简单解释表中符号表示的含义。conv3-512 表示使用了3 × 3 的卷积，卷积之后的通道数为512 。而conv3-256 表示使用了3 × 3 的卷积，通道数为256，依此类推。

基于深度学习的图像识别模型发展

　　vgg的最主要的思想就是增加网络深度，减小卷积核尺寸（3*3）。减少卷积核的好处就是可以减少参数和计算量，比如，论文中举了一个例子，把一个7*7的卷积层替换成3个3*3的卷积层，参数上可以减少81%,因为3*3*3 = 27, 7*7 = 49.

　　文中还提到了1*1的卷积层，比如说下图的configC的conv1层，这样做的目的主要是增加卷积层的非线性表达，同时影响卷积层的感受野，这个思想在google的inception系列网络中有了很好的应用，具体可以参考Network in Network这篇论文。

　　vgg的参数还是很多的，可以看出vgg-16有138百万个参数。

incception系列

转载注明出处：https://www.heiqu.com/zwygfg.html

基于深度学习的图像识别模型发展

相关推荐