Machine Learning - 李宏毅 学习笔记 (10)

一是count based基于计数,如现在两词汇\(w _ {i},w _ {j}\),如果他们常在同一文章中出现,那么他们的向量距离会比较接近,其中代表性的例子是Glove vector手套向量。

做法原则与MF类似,\(N _ {i,j}\)\(w _ {i},w _ {j}\)在同一文档出现的次数,有\(N _ {i,j} ≈ w _ {i} * w _ {j}\),最小化误差即可。

二是prediction based基于预测,具体步骤是先学习一个神经网络,每个word可以用one-hot表示成一个特征向量,模型输入的是\(w _ {i-1}\)的独特编码,输出下个(相邻)\(w _ {i}\)是某个word的概率(输入输出维度相同)。

在这种方式下对hidden layer隐藏层就需要进行区别的设计,比如周深开演唱会和周杰伦开演唱会不同的\(w _ {i-1}\)需要输出相同概率最大的\(w - {i}\)

使用\(w _ {i-1}\)去预测\(w - {i}\)比较困难,所以推广到希望前n个word去预测下个概率。但是中间隐藏层的参数权重必须一样,因为如果不这样把同一个word放在两个不同的位置上得到的embedding就会不同,另外这样可以减少参数两不会随着输入的内容变多参数也变多。

如果让权重\(\omega\)一样,只需在迭代更新时让\(\omega _ {i}\)对cost function的偏微分减去\(\omega _ {j}\)对cost function的偏微分,\(\omega _ {j}\)对cost function的偏微分减去\(\omega _ {i}\)对cost function的偏微分,这样所有权重更新都一样了。

这个神经网络的训练只需要收集一大堆文字数据然后就可以了。除此外,基于预测的模型还有很多种变式,一种叫做continuous bag of word model CBOW单词模型的连续袋,意思是拿某些词的内容去预测中间词汇(即\(w _ {i-1},w _ {i+1}\)去预测\(w _ {i}\))。整个神经网络实际上不是deep的,就只是一个单线性层网络。

word vector词向量还有些有趣的特性:

比如把城市名或者动词的三态放在一起,之间会有某种固定的关系。eg. V(hotter) - V(hot) ≈ V(bigger) - V(big),V(king - queen) ≈ V(uncle) - V(aunt)等

Multi-lingual Embedding 多语言嵌入:中文向量和英文向量映射,两边各自的特征空间,接下来如果有新的中文 / 英文词汇,可以直接投影到同一个空间上,再做两个空间的映射,这样就可以做翻译。

Multi-domain Embedding 多域嵌入:词嵌入不限对文字,还可以对影像嵌入。类似于输入image,网络学习后输出跟词向量一样维度的向量,然后跟词向量一样进行之前的操作,最后得到可能训练集中没有class或者名称。

Document Embedding 文档嵌入:不仅是word可以转换为vector,对document文档也行。最简单的方法就是把文档变成一个bag-of-word词袋,然后用自编码器学习出document semantic embedding文档的语义嵌入。

光用词袋描述一个文档不够,因为词汇的顺序对语义也很重要,词袋只是知道词频跟词量。

第十九章 无监督学习 - Neighbor Embedding 近邻嵌入

TSNE是一种数据可视化工具,也是一种能将高维数据降至2-3维的算法,其中的T是指T分布,SHE是随机近邻嵌入,是一种非线性降维算法。

数据点在高维空间可能只是一个manifold流形,也就是说数据点的分布其实在低维空间,强行扭曲放置在高维空间里。manifold常举得例子是地球,地球表面是一个manifold(实际上是一个二维平面,被塞到了一个三维空间里面)。

在manifold里只有距离很近的点,Euclidean distance欧氏距离才会成立,如果距离较远则欧式三角形不一定成立(是曲面了)。也就是说在高维空间我们计算相似程度不能使用欧氏距离比较。

所以manifold learning要做的事情就是把高维空间形成的曲面展开放到低维空间摊平,摊平后我们就可以来计算欧氏距离了,这样降维对监督学习是很有帮助的。

Locally Linear Embedding LLE局部线性嵌入:

一种摊平的方法是LLE。首先在高维空间中有点\(x^{i}\)和其近邻们\(x^{j}\),他们之间的假设线性关系\(x^{i}=Σw _ {ij}x^{j}\),那么w权重是由minimization最小化\((x^{i} - Σw _ {ij}x^{j}) _ {L2-Norm}\)第二范式得到。接下来做降维,把\(x^{i,j}\)转换成\(z^{i,j}\),中间关系w不变。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwsszd.html