在本节中,我们通过在CoNLL-2003 NER任务上生成类似ELMo预训练的语境表征,来评估基于特征的方法中BERT性能如何。为此,我们用4.3节相同的输入表征,但用其来自一层或多层的激活,而不微调任何BERT参数。这些语境嵌入用作分类层之前随机初始化的双层768维BiLSTM作为输入。
结果显示在表7中。性能最佳的方法是连接来自预训练变换器其顶部四个隐藏层的词块表征,微调此整个模型后仅为0.3 F1。这表明BERT对于微调和基于特征的方法都是有效的。
表7:用BERT和CoNLL-2003 NER基于特征的方法消模。将来自此指定层的激活做组合,并馈送到双层BiLSTM中,而不向BERT反向传播。
六、结论近期实验改进表明,使用迁移学习语言模型展示出的丰富、无监督预训练,是许多语言理解系统的集成部分。特别是,这些结果使得即使低资源任务,也能从很深的单向架构中受益。我们的主要贡献是将这些发现进一步推广到深度双向架构,允许其相同的预训练模型去成功解决一系列广泛的NLP任务。
虽然实验结果很强,在某些情况下超过人类性能,但重要的未来工作是研究BERT能不能捕获其语言现象。