函数图像:
函数导数
特点:Swish 在深层模型上的效果优于 ReLU。例如,仅仅使用 Swish 单元替换 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分类准确率提高 0.9% ,Inception-ResNet-v的分类准确率提高 0.6% 。当 β=0 时,Swish激活函数变成线性函数 f(x)=x/2 .而当 β->∞ 时, δ(x)=(1+exp(-x))-1 为0或1,这个时候Swish激活函数变成ReLU激活函数 f(x)=2max(0,x) 。因此Swish激活函数可以看做是介于线性函数与ReLU函数之间的平滑函数。
11. Maxout函数表达式:
特点: Maxout 模型实际上也是一种新型的激活函数,在前馈式神经网络中, Maxout 的输出即取该层的最大值,在卷积神经网络中,一个 Maxout 特征图可以是由多个特征图取最值得到。 Maxout 的拟合能力是非常强的,它可以拟合任意的的凸函数。但是它又和 Dropout 一样需要人为设定一个 k 值。为了便于理解,假设有一个在第 i 层有 2 个节点, i+1 层有1个节点构成的神经网络。即:
激活值 out = f(W*X+b) ,其中 f是激活函数, *在这里代表內积。然后 X=(x1,x2)T , W=(w1,w2)T 。那么当我们对 i层使用 Maxout (设定 k=5 )然后再输出的时候,情况就发生了改变。网络就变成了:
此时网络形式上就变成上面的样子,用公式表现出来就是: z1=W1*X+b1 , z2=W2*X+b2 , z3=W3*X+b3 , z4=W4*X+b4 , z5=W5*X+b5 。 out=max(z1,z2,z3,z4,z5) 也就是说第层的激活值计算了5次,可我们明明只需要 1个激活值,那么我们该怎么办?其实上面的叙述中已经给出了答案,取这 5个的最大值来作为最终的结果。
可以看到采用 Maxout 的话参数个数也增加了 k倍,计算开销会增大。
12. Mish函数表达式:
函数图像: