【NLP】彻底搞懂BERT (5)

  MultiNLI文本蕴含识别(M推理出N,蕴含/矛盾/中立),QQP(文本匹配),QNLI(自然语言问题推理),STS-B(语义文本相似度1-5),MRPC(微软研究释义语料库,判断文本对语音信息是否等价)、RTE(同MNLI,小数据),SWAG(113k多项选择问题组成的数据集,涉及丰富的基础情境)

b——分类任务(文本匹配):

  SST-2(斯坦福情感分类树),CoLA(语言可接受性预测)

对于左三图抽取式任务,用两个线性分类器分别输出span的起点和终点

c——序列标注(文本抽取):

  SQuAD(斯坦福问答数据集,从phrase中选取answer)

对于左四图序列标注任务,就只需要加softmax输出层

d——序列标注:

  NER命名实体识别

 

 

四、运行结果

# 贫穷限制了我的想象力系列。。

 1. 数据量与模型大小

数据:

  BooksCropus与英文维基百科数据一共有33亿个词。

模型:

  BERT模型的标准版本有1亿的参数量,与GPT持平;BERT的大号版本有3亿多参数量,这应该是目前自然语言处理中最大的预训练模型了。

训练代价:

  google用了16个TPU集群(一共64块TPU)来训练大号版本的BERT,花了4天时间。对于是否可以复现预训练,作者在 [Reddit]上有一个大致的回复,指出OpenAI当时训练GPT用了将近1个月的时间,而如果用同等的硬件条件来训练BERT估计需要1年的时间。不过他们会将已经训练好的模型和代码开源,方便大家训练好的模型上进行后续任务。

 

2. 运行结果

 

Table1 句子关系判断及分类任务

Table2 抽取式任务:SQuAD

Table3 序列标注:命名实体识别

Table4 分类任务:SWAG

 

【NLP】彻底搞懂BERT

table1

【NLP】彻底搞懂BERT

 

【NLP】彻底搞懂BERT

只在NLP生成式任务中留了一条活路。。。。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpypss.html