MultiNLI文本蕴含识别(M推理出N,蕴含/矛盾/中立),QQP(文本匹配),QNLI(自然语言问题推理),STS-B(语义文本相似度1-5),MRPC(微软研究释义语料库,判断文本对语音信息是否等价)、RTE(同MNLI,小数据),SWAG(113k多项选择问题组成的数据集,涉及丰富的基础情境)
b——分类任务(文本匹配):
SST-2(斯坦福情感分类树),CoLA(语言可接受性预测)
对于左三图抽取式任务,用两个线性分类器分别输出span的起点和终点
c——序列标注(文本抽取):
SQuAD(斯坦福问答数据集,从phrase中选取answer)
对于左四图序列标注任务,就只需要加softmax输出层
d——序列标注:
NER命名实体识别
四、运行结果
# 贫穷限制了我的想象力系列。。
1. 数据量与模型大小
数据:
BooksCropus与英文维基百科数据一共有33亿个词。
模型:
BERT模型的标准版本有1亿的参数量,与GPT持平;BERT的大号版本有3亿多参数量,这应该是目前自然语言处理中最大的预训练模型了。
训练代价:
google用了16个TPU集群(一共64块TPU)来训练大号版本的BERT,花了4天时间。对于是否可以复现预训练,作者在 [Reddit]上有一个大致的回复,指出OpenAI当时训练GPT用了将近1个月的时间,而如果用同等的硬件条件来训练BERT估计需要1年的时间。不过他们会将已经训练好的模型和代码开源,方便大家训练好的模型上进行后续任务。
2. 运行结果
Table1 句子关系判断及分类任务
Table2 抽取式任务:SQuAD
Table3 序列标注:命名实体识别
Table4 分类任务:SWAG
table1
只在NLP生成式任务中留了一条活路。。。。