【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练 (7)

  有趣的是,BERTLARGE在所有任务中都明显优于BERTBASE,即使训练数据非常少的那些也是如此。第5.2节更全面地探讨了BERT模型尺寸的影响。

4.2 斯坦福问答数据集 SQuAD v1.1

  Standford问题回答数据集(SQuAD)是一种100k众包问答对的集合(Rajpurkar等,2016)。给出一个问题和包含答案的来自维基百科的一个段落,任务是预测该段落中的其答案文本的跨度。例如:

•输入问题:

水滴在哪里与冰晶碰撞形成沉淀?

•输入段落:

...沉淀形成为较小的液滴通过与云中的其他雨滴或冰晶碰撞而聚结。...

•输出答案:

在云中

  这种类型的跨度预测任务与GLUE的序列分类任务完全不同,但我们能以简单的方式调整BERT以在SQuAD上运行。与GLUE一样,我们将输入问题和段落表示为单个打包序列,问题使用A嵌入和使用B嵌入的段落。在微调期间学习的唯一新参数是起始矢量S∈RH和结束矢量E∈RH。让来自BERT的第i个输入词块的最终隐藏向量表示为Ti∈RH。请参见可视化图3(c)。然后,单词 i 作为答案跨度开始的概率被计算为Ti和S之间的点积(dot product),跟随着段落中所有单词的softmax:

【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

  相同公式用于其答案跨度的末端,最大评分范围用作其预测。训练目标是正确的开始和结束位置的log似然(log-likelihood)。

  我们以学习率5e-5批量大小32来训练3个周期。推理时,由于结束预测不以开始为条件,我们添加了在开始后必须结束的约束,但是没有使用其他启发式方法。词块化标记跨度原始非词块化输入对齐,以做评估。

  结果呈现在表2。SQuAD用很严格的测试过程,其提交者必须人工联系SQuAD组织者以在一个隐藏测试集上运行他们的系统,因此我们只提交了我们最好的系统进行测试。该表显示的结果是我们向SQuAD提交的第一个也是唯一的测试。我们注意到SQuAD排行榜最好高结果没有最新的可用公共系统描述,并且在训练他们的系统时可以使用任何公共数据。因此,我们通过我们提交的系统中使用非常适度的数据增强,在SQuAD和TriviaQA(Joshi等,2017)上联合训练。

【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

表2:SQuAD结果。本BERT集成是使用不同预训练检查点和微调种子(fine-tuning seed)的7x系统。

  我们性能最佳的系统在整体排名中优于顶级排行榜系统+1.5 F1项,在单一系统中优于+1.3 F1项。事实上,我们的单一BERT模型在F1得分方面优于顶级全体系统。如果我们只微调SQuAD(没有TriviaQA),我们将失去0.1-0.4的F1得分,但仍然大幅超越所有现有系统。

4.3 命名实体识别(Named Entity Recognition)

  为了评估词块标记任务的性能,我们在CoNLL 2003命名实体识别(NER)数据集上微调BERT。该数据集由200k个训练单词组成,这些单词已注释为人员、组织、位置、杂项或其他(非命名实体)。

  为做微调,我们将最终隐藏表征Ti∈RH提供给每个词块i到NER标签集上的分类层。此预测不以周围预测为条件(即,非自回归和无CRF)。为了使其与WordPiece词块化相兼容,我们将每个CoNLL词块化输入单词提供给我们的WordPiece词块化器,并使用与第一个子标记相对应的隐藏状态作为分类器的输入。例如:

Jim  Hen  ##son  was  a  puppet  ##eer

I-PER  I-PER  X  O  O  O  X

  在没有对X做预测的情况下。由于WordPiece词块化边界是一个该输入的已知部分,因此对训练和测试都做了预测。图3(d)中还给出了可视化呈现。一种事例WordPiece模型用于NER,而非事例模型用于所有其他任务。

  结果呈现在表3中。BERTLARGE优于现有SOTA——具有多任务学习(Clark等,2018)的跨视图训练,在CoNLL-2003NER测试中达+0.2。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpssjz.html