【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

谷歌AI语言组论文BERT:语言理解的深度双向变换器预训练》,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语言表征模型,BERT基于所有层的左、右语境来预训练深度双向表征量。BERT是首个大批句子层面和词块层面任务中取得当前最优性能的表征模型,性能超越许多使用任务特定架构的系统,刷新11NLP任务当前最优性能记录,堪称最强NLP预训练模型!未来可能成为新行业基础。本文参考网上各大文章,整理翻译了BERT论文,在自己学习的同时也分享给大家,欢迎交流指教。论文地址:https://arxiv.org/pdf/1810.04805.pdf

摘要

  本文介绍一种称之为BERT的新语言表征模型,意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的语言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有层的左、右语境来预训练深度双向表征。因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答语言推理)创建当前最优模型,无需对任务特定架构做出大量修改。

  BERT的概念很简单,但实验效果很强大。它刷新了11个NLP任务的当前最优结果,包括将GLUE基准提升至80.4%(7.6%的绝对改进)、将MultiNLI的准确率提高到86.7%(5.6%的绝对改进),以及将SQuADv1.1问答测试F1的得分提高至93.2分(1.5分绝对提高)——比人类性能还高出2.0分。

一、介绍

  语言模型预训练已被证明可有效改进许多自然语言处理任务(Dai and Le, 2015;Peters等,2017, 2018; Radford等,2018; Howard and Ruder, 2018)。这些任务包括句子级任务,如自然语言推理inference(Bowman等,2015; Williams等,2018)释义paraphrasing(Dolan and Brockett, 2005),旨在通过整体分析来预测句子之间的关系;以及词块级任务,如命名实体识别(Tjong Kim Sang andDe Meulder, 2003)SQuAD问题回答(Rajpurkar等,2016),其中模型需要在词块级别生成细粒度输出。

  将预训练语言表征应用于下游任务有两种现有策略:基于特征feature-based微调fine-tuning基于特征的方法,例如ELMo(Peters等,2018),使用特定于任务的架构,其包括将预训练表征作为附加特征。微调方法,例如GenerativePre-trained Transformer(OpenAIGPT生成型预训练变换器)(Radford等,2018),引入了最小的任务特定参数,并通过简单地微调预训练参数在下游任务中进行训练。在以前的工作中,两种方法在预训练期间共享相同的目标函数,它们使用单向语言模型来学习通用语言表征

  我们认为,当前技术严重制约了预训练表征的能力,特别是对于微调方法。其主要局限在于标准语言模型是单向的,这限制了可以在预训练期间使用的架构类型。例如,在OpenAI GPT,作者们用一个从左到右的架构,其中每个词块只能注意变换器自注意层中的前验词块(Vaswani等,2017)。这种局限对于句子层面任务而言是次优选择,对于词块级任务的方法,则可能是毁灭性的。在这种任务中应用基于词块级微调法,如SQuAD问答(Rajpurkar等,2016),结合两个方向语境至关重要。

  在本论文,我们通过提出BERT模型:来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers),改进了基于微调的方法。BERT通过提出一个新的预训练目标:“遮蔽语言模型”(maskedlanguage model,MLM),来自Cloze任务(Taylor,1953)的启发,来解决前面提到的单向局限。该遮蔽语言模型随机地从输入中遮蔽一些词块,并且,目标是仅基于该遮蔽词语境语境来预测其原始词汇id。不像从左到右的语言模型预训练,该MLM目标允许表征融合左右两侧语境语境,这允许我们预训练一个深度双向变换器。除了该遮蔽语言模型,我们还引入了一个“下一句预测”(nextsentence prediction)任务,该任务联合预训练文本对表征量

  我们的论文贡献如下:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpssjz.html