斯坦福情感树库2是一个二元单句分类任务,由从电影评论中提取的句子和人类注释的情绪组成(Socher等,2013)。
CoLA
语言可接受性语料库是一个二元单句分类任务,其目标是预测英语句子在语言上是否“可接受”(Warstadt等,2018)。
STS-B
语义文本相似性基准是从新闻标题和其他来源中提取的句子对的集合(Cer等,2017)。它们用1到5的分数进行注释,表示两个句子在语义上的相似程度。
MRPC
微软研究院解释语料库由从在线新闻源自动提取的句子对组成,其中人类注释是否该对中的句子是否在语义上相等(Dolan和Brockett,2005)。
RTE
识别文本蕴涵是类似于MNLI的二进制蕴涵任务,但训练数据少得多(Bentivogli等,2009)。(注:请注意,本文仅报告单任务微调结果。多任务微调方法可能会进一步推动结果。例如,我们确实观察到MNLI多任务培训对RTE的实质性改进。)
WNLI
威诺格拉德自然语言推理是一个源自(Levesque等,2011)的小型自然语言推理数据集。GLUE网页指出,该数据集的构建存在问题,并且每个提交给GLUE训练过的系统的性能都比预测大多数类别的65.1基线准确度差。(注:https://gluebenchmark.com/faq) 因此,我们将这一组排除在OpenAIGPT的公平性之外。对于我们的GLUE提交,我们总是预测其大多数的类。
4.1.1 GLUE结果图3:我们的任务特定模型是由向BERT添加一个额外输出层而形成的,因此一小部分参数需要从头开始学习。
在该任务中,(a)和(b)是序列级任务,(c)和(d)是词块级任务。图中E代表其输入嵌入,Ti代表词块i的语境表征,[CLS]是分类输出的特殊符号,[SEP]是分割非连续词块序列的特殊符号。
对GLUE微调,我们呈现了第3节中描述的输入序列或序列对,并使用对应于第一个输入词块([CLS])的最终隐藏向量C∈RH作为聚合表征。这都呈现在可视化图3(a)和(b)中。在微调期间引入的唯一新参数是分类层W∈RK×H,其中K是标签数量。我们用C和W计算标准分类损失,即log(softmax(CWT))。
对所有GLUE任务,我们均在其数据上使用一个批量大小为32和3个周期。对于每项任务,我们用学习率5e-5,4e-5,3e-5和2e-5做了微调,并选择了在其Dev集上性能最佳的那一个。此外,对于BERTLARGE,我们发现微调有时在小数据集上不稳定(如,某些运行会产生退化结果),因此我们运行了几次随机重启并选择了在Dev集上性能最佳的模型。通过随机重启,我们使用相同的预训练检查点,但执行不同的微调数据混洗和分类器层初始化。我们注意到GLUE数据集分布不包括其测试标签,我们只为每个BERTBASE和BERTLARGE做单一的GLUE评估服务器提交。
表1:GLUE测试结果,评分来自其GLUE评估服务器。每个任务下面的数字代表该训练样本数量。“Average”列与GLUE官方分数略微不同,因为我们排除了有问题的WNLI集。
OpenAI GPT = (L=12, H=768, A=12);BERTBASE= (L=12, H=768, A=12);BERTLARGE = (L=24, H=1024,A=16)。
BERT和OpenAI GPT是单模型、单任务。所有结果来自于以下地址:https://gluebenchmark.com/leaderboard和https://blog.openai. com/language-unsupervised/。
结果如表1所示。BERTBASE和BERTLARGE在所有任务上的性能均优于所有现有系统,相对于最先进水平,平均准确度提高了4.4%和6.7%。请注意,BERTBASE和OpenAIGPT在其注意遮蔽之外的模型架构几乎相同。对于规模最大、报道最广泛的GLUE任务,MNLI、BERT的绝对精度提高了4.7%,超过了最先进水平。在官方GLUE排行榜8上,BERTLARGE得分为80.4,而该排行榜系统登顶的OpenAIGPT在本文撰写之日获得72.8分。(注 https://gluebenchmark.com/leaderboard)