其中Wl-1 , l是第 l 层特征图的三维张量,我们采用 * 是有效的卷积运算,对应于仅返回哪些在每个卷积滤波器和输入特征图之间完全重叠的结果的输出单元。
图四,选择用于验证任务的最佳的卷积架构。没有显示连体双胞胎,但在4096个单位的完全连接层之后立即加入连体,其中计算了向量之间的L1分量方向距离。
最终卷积层中的单位被展平为单个向量。该卷积层之后是一个完全连接的层,然后再一层计算每个孪生双胞胎之间的感应距离度量,该距离度量被提供给单个S型输出单元。更准确的说,预测矢量为 P=
),其中 其中σ是S型激活函数。 最后一层在第 (L-1)隐藏层的学习特征空间上引入度量,并对两个特征之间的相似性进行评分。αj是模型在训练过程中学习的其他参数,加权了分量方向距离的重要性。这为网络定义了最后的 Lth全连接层,该层将两个孪生双胞胎相连。我们在上面描述了一个示例(图4),该示例显示了我们考虑的模型的最大版本。该网络还为验证任务中的任何网络提供了最佳结果。
3.2 Learning损失函数:令M代表小批量的大小,其中 i 索引第 i 个小批量。现在让 y(x1, x2) 是一个长度为M的向量,其中包括小批量的标签,其中,当 x1 和 x2 来自同一字符类时,我们假设 y(x1, x2) =1 ,否则,我们在以下形式中的二进制分类器上强加一个正规化的交叉熵目标:
优化器:这个目标与标准的反向传播算法结合在一起,在该算法中,由于权重的关系,整个双子网络的梯度是相加的。我们将学习速率 ηj,动量 µj 和 L2 正则化权重 λj 分层定义,从而将小批量大小固定为128,因此在时间点T的更新规则如下:
其中 ∇wkj 是相对于某层第 j 个神经元和连续层第 k 个神经元之间权重的偏导数。
权重初始化。我们从零均值和 10-2的标准差的正态分布初始化卷积层中的所有网络权重。偏差也从正态分布初始化卷积层中的所有网络权重。偏差也从正态分布初始化,但平均值为 0.5,标准差为10-2。在完全连接的层中,以与卷积层相同的方式来初始化偏差,但是权重时从更宽的正态分布中得出的,均值为零,标准差为 2*10-1。
学习时间表。尽管我们为每一层设置了不同的不学了,但是每个epoch的学习率在网络上均匀下降了 1%,因此 η(T)j =0.99η(T -1)j。 我们发现,通过对学习速率进行退火,网络能够更轻松地收敛到局部最小值,而不会陷入错误表明。我们将动量固定为每层从 0.5 开始,每个时代线性增加,直达达到值 j,即第 j 层的各个动量项。