NLP预训练模型

预训练模型介绍

词向量 word2vec

带上下文语义的词向量 (ELMo && Bert)

开题

ImageNet 预训练模型在计算机视觉领域成功 (ResNet)
ImageNet是斯坦福教授李飞飞组里标注的一个很大的数据集,有超过100万张的图片,然后他都标标出了各种各样的类别。并由此衍生了基于此的比赛。

ImageNet

是一个超过15 million的图像数据集,大约有22,000类。

是由李飞飞团队从2007年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,它作为论文在CVPR-2009发布。当时人们还很怀疑通过更多数据就能改进算法的看法。

深度学习发展起来有几个关键的因素,一个就是庞大的数据(比如说ImageNet),一个是GPU的出现。(还有更优的深度模型,更好的优化算法,可以说数据和GPU推动了这些的产生,这些产生继续推动深度学习的发展)。

有一个相关的大赛,是做几千分类的任务,然后还有基于ImageNet的更加复杂的任务,比如说是物体识别、图像分类之类的,在这个任务上面就诞生了一大批的深度学习的模型,比如说非常有代表性的叫做ResNet.

ResNet
ResNet呢是一个超有152层的这样的一个非常深度的卷积神经网络。ResNet的作者何凯明也因此摘得CVPR2016最佳论文奖。深度残差网络(Deep residual network, ResNet)的提出是CNN图像史上的一件里程碑事件,可以看下ResNet在ILSVRC和COCO 2015上的战绩:

ResNet在ILSVRC和COCO 2015上的战绩

image

令人惊喜的是,该模型不止于在ImageNet上的优秀表现,人们发现他还可以做其他的Downstream Task,也就是其他的下游任务。其效果可以迁移。

这就是种预训练模型,它并不仅仅是说应用在它本身训练的任务上面,它可以作为一个迁移学习的方法迁移到一些别的任务当中去。

Collobert et al.,Natural Language Processing(Almost)from Scratch,2011很多人NLP领域的研究者认为这是一篇划时代的文章。

这是一篇非常重量级的文章,在这个NLP领域有一篇叫做Natural Language Processing(Almost)from Scratch。前几年的时候有一个采访,我记得是采访20位NLP领域里面的专家,都是一些各个大公司的研究员或者是一些学校的教授,然后他们就有人就采访他们说问你认为就是当今这10年来或者这几十年来,最重要的一篇LP的文章是什么?然后有很多人提了这篇文章,natural language processing from scratch。

这篇文章的厉害之处在于:

在11年的时候创新性的用了很多深度学习的方法来解决NLP的问题。-- 这在三年后引起了大量关注。

在NLP中引入了词向量的概念。-- 单词转成词向量,我们后续很多操作都是基于这些词向量做的一些模型的架构。

总结:在之前的一些imagenet的比赛中,alexNet的文章等用了深度学习取得了冠军,让大家认识到深度学习是个非常厉害的东西,后来ResNet有152层神经网络后,人们就更加关注DL,然后这篇文章就把DL引入到了NLP领域。

词向量 最开始的语言表示

image

文字的向量表示

word2vec

image

文本:非结构化数据/不可计算 转换》 向量:结构化数据/可计算

那word embedding实际上可以做到通过读海量的文档内容,然后理解单词的意思。比如 The cat sat on the pat和The dog sat on the pat这两句话,cat和dog是接近的。

评估方法:单词相似度,词向量的几何规律

word2vec 还发现有趣的单词类比推理现象,即 V(king) - V(man) + V(woman) ≈ V(queue)
词向量基本思想是通过训练将每个词映射成 K 维实数向量后,可通过词之间的距离(比如 cosine 相似度、欧氏距离等)来判断它们之间的语义相似度。

image

先对词随机初始化为N维向量,然后Word2vec通过两种种训练模式,使其学习到一些上下文含义。

如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』

而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzsggf.html