将句子表示为向量(上):无监督句子表示学习(sentence embedding) (3)

2016年发表的论文提出的第一种模型称为序列去噪自编码器(SDAE: Sequential Denoising AutoEncoder)。AutoEncoder包括编码器和解码器两部分,输入信息通过编码器产生编码信息,再通过解码器得到输入信息,模型的目标是使输出信息和输入信息原来越接近。DAE (Denoising AutoEncoder)表示模型的输入信息首先经过了噪声处理后再进行编码和解码,并且希望解码的输出信息是不含噪声的输入信息,即去噪。DAE常用于图像处理,本文提出SDAE模型表示用来处理变长的句子(序列)。具体地,给定句子\(S\),采用噪声函数:\(N(S|p_0,p_x)\),其中\(p_0, p_x\)为0到1之间的概率值。首先,对于\(S\)中的每个词\(w\),噪声函数\(N\)按照概率\(p_0\)随机删除\(w\),然后对于\(S\)中每个不重叠的bigram \(w_iw_{i+1}\),噪声函数\(N\)按照概率\(p_x\)\(w_i\)\(w_{i+1}\)进行交换。论文采用基于LSTM的encoder-decoder模型,SDAE的目标是预测出原始句子\(S\)。SDAE模型在验证集上对超参数\(p_0,p_x \in {0.1, 0.2, 0.3}\)进行搜索,得到当\(p_0=p_x=0.1\)为最优结果。论文还尝试令\(p_0=p_x=0​\)进行对比实验,SDAE模型即变成了SAE模型。 SDAE模型相较于的优点是只需要输入单个句子,即不要求句子所在的文本是有序的,而Skip-Thought的输入必须是三个有序的句子。

3.5 基于词袋模型的FastSent

2016年发表的论文提出的第二种模型称为FastSent,模型采取语言模型形式的编码解码方式,导致其训练速度会很慢。FastSent采取了BoW(词袋)形式的编码方式,使得模型训练速度大幅提高,因此称为FastSent。具体地,给定一个连续的句子三元组\(S_{i-1}, S_i, S_{i+1}\),对中间的句子\(S_{i}\)进行编码,编码方式是\(S_i\)中所有词的词向量之和,即\(\mathbf { s } _ { \mathbf { i } } = \sum _ { w \in S _ { i } } u _ { w }\),然后根据\(\mathbf { s } _ { \mathbf { i } }\)\(w \in S_{i-1} \cup S_{i+1}​\)进行预测,这与word2vec模型中的skip-gram基本一致,而无需像Skip-Thought一样按照句子中词的顺序生成(预测)。因此FastSent的损失函数如下:
\[ \sum _ { w \in S _ { i - 1 } \cup S _ { i + 1 } } \phi \left( \mathbf { s } _ { \mathbf { i } } , v _ { w } \right) \]
其中\(\phi \left( v _ { 1 } , v _ { 2 } \right)\)为softmax函数,\(v_w\)为目标句子中的词\(w\)的embedding。论文还提出了一种变体模型FastSent+AE,该变体不光是预测前后两个句子中的词,还预测本身句子的词,损失函数即为:
\[ \sum _ { w \in S _ { i - 1 } \cup S _ { i } \cup S _ { i + 1 } } \phi \left( \mathbf { s _ { i } } , v _ { w } \right) \]
模型训练后,测试阶段,FastSent能够通过计算句子中所有词向量的和迅速得到句子embedding,即:\(\mathbf { s } = \sum _ { w \in S } u _ { w }​\)

论文通过两种类型的下游任务来评测句子分布式表示的质量,分别为监督类型(包括释义识别,文本分类)和非监督类型(语义相关性:SICK数据集与STS数据集,直接计算句子向量的余弦相似度并与人类打分进行比较)。实验结果为SDAE模型在监督类型评测上比CBOW(将CBOW类型词向量直接相加得到句子向量)和Skipgram等简单模型要好,但是在非监督类型评测上结果却相反。类似地,Skip-Thought模型在监督类型评测上比FastSent模型效果好,但在非监督类型评测上,FastSent要好于Skip-Thought。实验结果表明,最佳方法主要取决于预期的应用。 更深,更复杂的模型(同时也需要更多的计算资源和训练时间)更适用于监督类型评测,但浅的对数线性模型更适合无监督类型评测

3.6 利用n-grams embedding

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zygpwx.html