Machine Learning - 李宏毅 学习笔记 (11)

所以LLE就是把\(x^{i,j}\)在高维空间上固定住,之后为每一个\(x^{i,j}\)找对应的\(z^{i,j}\),我们找的\(z^{i,j}\)可以minimize上述范式。我们最小化做梯度下降可以得到w,\(x^{i,j}\)也是已知的,\(z^{i,j}\)是需要我们去找的,但是并没有一个明确的function来确定如何找到这样的z,需要凭空自己找,近邻数也是超参设定。

近邻数需要设置的不大不小,如果近邻过大就会考虑较远的点,那么欧氏距离就会失效。

Laplacian Eigenmaps拉普拉斯特征映射

另一种摊平的方法是拉普拉斯特征映射。之前在半监督学习中提过smoothness assumption平滑度假设,表示如果想比较两红点之间的距离用欧氏距离不够,需要表示高密度分布才表示两点距离近。可以把数据点转换成图形式,然后考虑smoothness

在半监督时用high density region高密度区域表示有label和无label的标签近似一样,而现在也是表示两者标签相近,之前的权重w表示相似程度,如果\(x^{i,j}\)相近的话w就是一个很大的值,。(此处的x和y表示同一个东西,就是数据点)

\(L=ΣC(y^{r},\hat{y}^{r})+\lambda S\)

\(S=\frac{1}{2}Σw_ {i,j}(y^{i}-y{}j)^{2}=y^{T}Ly\)

\(x^{i,j}\)\(z^{i,j}\)关系一致,那么需要找个\(z^{i,j}\)minimize S的值。对z加上约束条件:对z降维后能刚好分布在M维空间中,不会分布在更小的维度里。解出上式后得到,z就是图拉普拉斯算子的特征向量。

T-distributed Stochastic Neighbor Embedding t-SNE T-分布随机近邻嵌入

之前的方法只是假设了相近的点应该时接近的,而没有假设不相近的点要分开,即不同class的点可以重叠在一起。

t-SNE同样也是降维,把数据点x编程低维向量z。在高维空间上计算所有pair点对\(x^{i,j}\)之间的similarit相似度。先对所有相似度做一个归一化,把其变成概率(全部加起来等于1,值介于0-1)。

\(P(x^{j}|x^{i})=\frac{S(x^{i,j})}{ΣS(x^{i,k})}\),同理z也进行normlization归一化。

我们希望找出z,让这两边分布越接近越好。可以用KL距离来量化两分布之间的相似度,要做的就是使L最小越好(梯度下降):\(L=ΣKL(P( * |x^{i})||Q( * |z^{i}))=ΣΣP(x^{j}|x^{i})log\frac{P(x^{j}|x^{i})}{Q(z^{j}|z^{i})}\)

t-SHE一个缺点就是他会计算所有数据点的相似度,所以运算量很大。一般常见的做法是先进行PCA降维,降到大概低比如50维再用t-SNE降到2维。另一个是t-SNE不能进行实时计算,如果后续有新加数据必须得重新跑一遍算法。

在t-SHE中相似度的选择非常巧妙,它选择的是符合t分布中的一种:\(S(z^{i,j})=\frac{1}{1+(z^{i}-z^{j}) _ {2-normal}}\)(在SHE和之前的相似度选择中都是用欧式距离取负号再取exp)

第二十章 无监督学习 - auto-encoder 自编码器

自动编码器:输入digit向量,输出code(类似压缩效果,code是一种image compact representation图像紧凑表示)由于要做的是无监督学习,可以再搭建一个decoder解码器,把两个网络连接起来一起训练。

类似于之前的PCA,PCA中是input\(x\),output\(\hat{x}\),中间的 component weight构件权重就是隐藏层(PCA中是线性的),\(x * w = c,c * w^{T}=\hat{x}\),这层 hidden layer隐藏层输出就是\(c\),这层layer通常称为Bottleneck later(不知道有什么好的译文称呼)。 \(w\)就相当于将\(x\)编码成\(c\)\(w^{T}\)\(c\)解码成\(\hat{x}\)

Bottleneck later叫法是因为component数目通常比input维数小得多(因为在做降维),如果要把它当作一层看就是一个特别窄的layer。

在PCA中只有一层,而在自编码器里可以设置很多层,在中间会有一层特别窄有非常少的neural,我们把这层称之boottle layer。从input到boottle layer是encoder降维,从boottle layer到output是decoder升维重建。

深度自编码器比PCA的效果要好不少,降维再重建后得到的图像较原图像区别不大。

自编码器 - 文本检索:

自编码器在文本处理上可以把 document 压缩成一个code。在文本检索中有一种文本检索的方法叫:vector space model向量空间模型。其是把 document表示成一个空间的向量(经过了降维),然后需要检索的单词表示成空间中的点,计算单词与每篇document之间的inner product内积,选择相似程度较高的。这种方法是否有效,取决于document是否很好能降维成向量。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwsszd.html