表3:CoNLL-2003命名实体识别结果。超参数通过开发集来选择,得出的开发和测试分数是使用这些超参数进行五次随机重启的平均值。
4.4 对抗生成情境数据集(SWAG)此对抗生成情境(SWAG)数据集包含113k个句子对的完成样例,用于评估基础常识推理(Zellers等,2018)。
给定一个视频字幕数据集中的某一个句子,任务是在四个选项中决定最合理的后续。例如:
一个女孩正穿过一套猴架杆。她
(i) 跳过猴架杆。
(ii) 挣扎到架杆抓住她的头。
(iii) 走到尽头,站在木板上。
(iv) 跳起并做后退。
(译注:monkey bars n.猴架,供孩子们攀爬玩耍的架子)
调到SWAG数据集的BERT,类似于其GLUE适配。对于每个样本,我们构造四个输入序列,每个输入序列包含给定句子(句子A)和可能后续(句子B)的串联。我们引入的唯一任务特定参数是一个矢量V∈RH,其具有最终聚合表征Ci∈RH的点积代表每个选择i的得分。概率分布是四种选择的softmax:
我们用学习率2e-5批量大小16,对此模型做了3个周期的微调。结果呈现在表4。BERTLARGE的性能优于该作者ESIM+ELMo系统的基线达+27.1%。
表4:SWAG开发和测试精度。测试结果由SWAG作者们对其隐藏标签进行评分。如SWAG论文所述,人类性能是用100个样本测量的。
五、消模实验虽然我们已经演示了极其强大的实验结果,但到目前为止所呈现的结果并未分离BERT框架各个方面的具体贡献。在本节中,我们将对BERT多个方面进行消模实验,以便更好地了解它们的相对重要性。(译注:Quora上对ablation study的解释:An ablation study typicallyrefers to removing some “feature” of the model or algorithm, and seeing howthat affects performance. 消模实验通常是指删除模型或算法的某些“特征”,并查看如何影响性能。ablation study是为研究模型中提出的一些结构是否有效而设计的实验。比如你提出了某结构,但要想确定这个结构是否有利于最终效果,就要将去掉该结构的模型与加上该结构的模型所得到的结果进行对比。ablation study直译为“消融研究”,意译是“模型简化测试”或“消模实验”。)
5.1 预训练任务的影响我们的核心主张之一是BERT的深度双向性,这是通过遮蔽LM预训练实现的,是BERT与以前工作相比最重要的改进。为证明这一主张,我们评估了两个使用完全相同预训练数据、微调方案和变换器超参数的BERTBASE新模型:
无NSP:一种使用“遮蔽LM”(MLM)训练但没有“下一句预测”(NSP)任务的模型。
LTR&NoNSP:使用从左到右(LTR)LM而不是MLM训练的模型。在这种情况下,我们预测每个输入单词,不应用任何遮蔽。左侧约束也用于微调,因为我们发现使用左侧语境预训练和双向语境微调,效果总是更差。此外,该模型在没有NSP任务的情况下做了预训练。这与OpenAIGPT直接相当,但使用我们更大的训练数据集、我们的输入表征和我们的微调方案。
结果显示在表5中。我们首先检查NSP任务带来的影响。我们可以看到,删除NSP会严重损害QNLI,MNLI和SQuAD的性能。这些结果表明,我们的预训练方法对于获得先前提出的强有力的实证结果至关重要。