4. 机器翻译:对于机器翻译,将BART的编码器嵌入层替换为新的随机初始化的编码器。然后对模型进行端到端训练。新的编码器可以使用与原始BART模型不同的词汇表。
结果
在不同的任务中,预训练的表现差异很大Token masking是至关重要的:成功的方法为token删除、masking或者self-attention masks。从左到右的预训练可提高通用性双向编码对于SQuAD至关重要。最重要的是,BART在摘要任务上做得非常出色。以下示例摘要由BART生成。示例取自Wikinews文章。正如您所看到的,模型输出是流利且符合语法的英语。然而,模型输出也是高度抽象的,从输入中复制的短语很少。
这些例子表明,BART的预训练已经将自然语言理解和自然语言生成紧密的结合在一起了。
最后
这就是BART,一种学习将损坏的文档映射到原始文档的预训练方法。BART在discriminative任务上的表现与RoBERTa相似。