激活函数总结 (3)

日期：2022-06-25 栏目：程序人生浏览：次

函数图像：

激活函数总结

函数导数

激活函数总结

特点：Swish 在深层模型上的效果优于 ReLU。例如，仅仅使用 Swish 单元替换 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分类准确率提高 0.9% ，Inception-ResNet-v的分类准确率提高 0.6% 。当 β=0 时，Swish激活函数变成线性函数 f(x)=x/2 .而当 β->∞ 时， δ（x）=(1+exp(-x))-1 为0或1,这个时候Swish激活函数变成ReLU激活函数 f(x)=2max(0,x) 。因此Swish激活函数可以看做是介于线性函数与ReLU函数之间的平滑函数。

11. Maxout

函数表达式：

激活函数总结

特点： Maxout 模型实际上也是一种新型的激活函数，在前馈式神经网络中， Maxout 的输出即取该层的最大值，在卷积神经网络中，一个 Maxout 特征图可以是由多个特征图取最值得到。 Maxout 的拟合能力是非常强的，它可以拟合任意的的凸函数。但是它又和 Dropout 一样需要人为设定一个 k 值。为了便于理解，假设有一个在第 i 层有 2 个节点， i+1 层有1个节点构成的神经网络。即：

激活函数总结

激活值 out = f(W*X+b) ，其中 f是激活函数， *在这里代表內积。然后 X=(x1,x2)T ， W=(w1,w2)T 。那么当我们对 i层使用 Maxout （设定 k=5 ）然后再输出的时候，情况就发生了改变。网络就变成了：

激活函数总结

此时网络形式上就变成上面的样子，用公式表现出来就是： z1=W1*X+b1 ， z2=W2*X+b2 ， z3=W3*X+b3 ， z4=W4*X+b4 ， z5=W5*X+b5 。 out=max(z1,z2,z3,z4,z5) 也就是说第层的激活值计算了5次，可我们明明只需要 1个激活值，那么我们该怎么办？其实上面的叙述中已经给出了答案，取这 5个的最大值来作为最终的结果。

可以看到采用 Maxout 的话参数个数也增加了 k倍，计算开销会增大。

12. Mish

函数表达式：

激活函数总结

函数图像：

激活函数总结

转载注明出处：https://www.heiqu.com/zzsjww.html

激活函数总结 (3)

相关推荐