AlexNet:(2012)主要贡献扩展 LeNet 的深度,并应用一些 ReLU、Dropout 等技巧。AlexNet 有 5 个卷积层和 3 个最大池化层,它可分为上下两个完全相同的分支,这两个分支在第三个卷积层和全连接层上可以相互交换信息。它是开启了卷积神经网络做图像处理的先河。
VGG-Net:2014年。该网络使用3×3卷积核的卷积层堆叠并交替最大池化层,有两个4096维的全连接层,然后是softmax分类器。16和19分别代表网络中权重层的数量。相比于 AlexNet 有更小的卷积核和更深的层级。VGG 最大的问题就在于参数数量,VGG-19 基本上是参数量最多的卷积网络架构。
ResNet:2015年。该网络使用残差模块来组成更复杂的网络(网络中的网络),使用标准随机梯度下降法训练。与VGG相比,ResNet更深,但是由于使用全局平均池操作而不是全连接密集层,所以模型的尺寸更小。
Inception:2015年。它没有如同 VGG-Net 那样大量使用全连接网络,因此参数量非常小。增加了网络的深度的同时也增加了网络的宽度,该网络使用不同大小的卷积核提取特征,同时计算1×1、3×3、5×5卷积,然后分别把他们的结果concatenate(不同卷积操作输出的feature map的大小要相同),然后将这些滤波器的输出沿通道维度堆叠并传递到下一层。因为 1*1、3*3 或 5*5 等不同的卷积运算与池化操作可以获得输入图像的不同信息,并行处理这些运算并结合所有结果将获得更好的图像表征。问题是计算量太大。
Inception v1:论文:Going deeper with convolutions,
Inception v2
Inception v3
Inception v4
Inception-v4编写于2016年
Inception-ResNet
Xception:2016年。该网络是Inception网络的扩展,使用了深度可分离卷积运算。其参数数量与Inception-v3相同,由于更高效地利用模型参数,该网络性能获得提升并在大型图像分类数据集胜过Inception-v3。
AlexNet《ImageNet Classification with Deep Convolutional Neural Networks》
详解:深度学习卷积神经网络-AlexNet
AlexNet:2012年产生,将错误率从原来的25%降到16%,
这个网络由上下两部分组成。输入的图像会经过5层卷积层(依次是11*11卷积、5*5卷积,3个3*3卷积),有些卷积层后面还使用了池化层。5层卷积之后连接了3层全连接层。由于该网络是由Alex 设计完成的,所以现在一般将此网络简称为AlexNet 。
AlexNet的成功得益于以下几个方面:
训练了较深层的卷积神经网络。
ImageNet 提供了大量训练样本,此外还使用了数据增强技术,因此神经网络的过拟合现象不严重。
使用了dropout 等技术,进一步降低了过拟合。
VGG《Very Deep Convolutional Networks for Large-Scale Image Recognition》
详解:一文读懂VGG网络
homepage:Visual Geometry Group Home Page
2014年产生,将错误率降到了7%,在原始的论文中,作者共训练了6 个网络,分别命名为VGG-A 、VGG-A-LRN 、VGG-B 、VGG-C 、VGG-D 幸日VGG-E ,在实际应用中,由于VGG-D和VGG-E效果最好,而且VGG-D有16层,VGG-E有19层,所以他们又被分别简称为VGG16和VGG19。VGG19 比VGG16 准确率更高,但相应地计算量更大。
简单解释表中符号表示的含义。conv3-512 表示使用了3 × 3 的卷积,卷积之后的通道数为512 。而conv3-256 表示使用了3 × 3 的卷积,通道数为256,依此类推。
vgg的最主要的思想就是增加网络深度,减小卷积核尺寸(3*3)。减少卷积核的好处就是可以减少参数和计算量,比如,论文中举了一个例子,把一个7*7的卷积层替换成3个3*3的卷积层,参数上可以减少81%,因为3*3*3 = 27, 7*7 = 49.
文中还提到了1*1的卷积层,比如说下图的configC的conv1层,这样做的目的主要是增加卷积层的非线性表达,同时影响卷积层的感受野,这个思想在google的inception系列网络中有了很好的应用,具体可以参考Network in Network这篇论文。
vgg的参数还是很多的,可以看出vgg-16有138百万个参数。
incception系列