大汇总 | 一文学会八篇经典CNN论文 (2)

日期：2021-08-28 栏目：程序人生浏览：次

cardinality=32的时候，就是分成32组进行卷积。上图中右边的模块，就是把输入feature map卷积从256通道压缩到4通道，然后再对4通道的特征图进行3*3的卷积。然后这个过程并行重复32次，最后再把所有的结果相加，然后再根据残差结构加上输入的特征图。

【值得一提的是】
下面的三种变体完全等价：

图A就是之说的结构；

图B是在3x3卷积后进行了concat，然后再通过统一的1x1卷积操作，这个有点类似于inception-resnet；

C图结构更简洁且速度更快。采用组卷积。采用32个group，每个group的输入输出的通道数都是4；

【因为组卷积的放在在pytorch等库函数中支持，所以使用组卷积的方法来实现resnext就非常的方便，就改一下参数就可以了。】

【实验结果来说，增加Cardinality的效果是有的，和resnet50/101相比，参数量相近的情况下，resnext的准确率有所提升。】

【个人感想：这个resnext我觉得就是一个提升网络模型的trick，在建立模型的时候，baseline跑完了，可以可以试一试分组卷积，看看是否会有提升】

DenseNet

densenet紧接着在resnet之后提出，结合了resnet的思想。网络改进除了像resnet和inception在深度和宽度上做文章外，densenet通过利用feature来减少参数的同时提高效果，对feature进行有效利用并加强feature的传递。

【主要贡献】
将每一层都与后面的所有层连接起来，如果一个网络中有L层，那么会有L(L+1)/2个连接，具体连接如下图所示：

DenseNet的一个优点是网络更浅，参数更少，很大一部分原因得益于这种dense block的设计，dense block中每个卷积层的输出feature map的数量都很小（小于100），而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效，网络也就更加容易训练。原文的一句话非常喜欢：Each layer has direct access to the gradients from the loss function and the original input signal, leading to an implicit deep supervision.直接解释了为什么这个网络的效果会很好。前面提到过梯度消失问题在网络深度越深的时候越容易出现，原因就是输入信息和梯度信息在很多层之间传递导致的，而现在这种dense connection相当于每一层都直接连接input和loss，因此就可以减轻梯度消失现象，这样更深网络不是问题。另外作者还观察到这种dense connection有正则化的效果，因此对于过拟合有一定的抑制作用，博主认为是因为参数减少了，所以过拟合现象减轻。

后来引入了dense block来解决特征图尺寸不一致的问题：

可以看出，只有在dense block内才会网络层全连接的这种结构，彼此dense block并无连接。

SENet

【主要贡献】
从特征通道之间的关系入手，对特征通道之间的关系进行建模表示，根据重要程度增强有用的特征、抑制没有用的特征。
个人感觉像是在通道上做权重，类似于通道上的attention。

SE是这个结构的两个步骤，squeeze和excitation。

squeeze挤压

对通道进行挤压，也就是全局平均池化，将shape为[C,H,W]的特征图变成[C,1,1]。

Excitation激励

首先通过一个全连接层进行降维，即如下公式中的W1z，然后经过relu激活函数。即δ(W1z)，再经过全连接进行升维，即W2(δ(W1z))，然后通过sigmoid进行权重激活。
\(s = \sigma(W_2\delta(W_1z))\)
这个s就是特征图每一个通道的权重值。

之后我们把这个s和每一个通道相乘，就可以得到权衡过通道重要性的特征图了。个人经过这个SENet，效果真的不错。

下面试SENet block：

可以看到，这个模块是放在Inception模块之后的，所以在自己的网络中，也可以加入一个SENet组件进去。SE block是一个寄生在其他网络结构上的一个性能提升trick。

转载注明出处：https://www.heiqu.com/zyxxzz.html

大汇总 | 一文学会八篇经典CNN论文 (2)

相关推荐