Machine Learning - 李宏毅学习笔记 (21)

日期：2022-02-08 栏目：程序人生浏览：次

$ ΣlogP(x _ {l}|y _ {l}) = ΣlogP(t|s) \cdot N _ {s,t}(x,y) $等价于两个向量做内积，进而可以用$w \cdot \phi (x,y)$表示，因此隐马尔可夫模型的$logP(t|s)$转为对应维度上的权重（出现几率），$ \phi (x,y)$表示$N _ {s,t}(x,y)$，标签与单词、标签之间的特征向量，很大的一个稀疏矩阵。

条件随机场 - 训练标准：

找到一个权重向量取最大化目标函数O(w)，即使得最大化给定的x所产生y正确标记的几率，对其其对数进行累加：$w\' = argmaxO(w)$，$O(w)=ΣlogP(y^{n}|x^{n})$。类似于交叉熵，也是最大化正确维度的几率再取对数，只不过现在是针对整个序列而言。

对$logP(y|x)$进行变换：$P(y|x)=\frac{P(x,y)}{ΣP(x,y\')}$，$logP(y^{n}|x^{n})=logP(x^{n},y^{n}) - logΣP(x^{n},y\')$，根据CRF定义即前项最大化观测到的几率，后项最小化未知的几率。

条件随机场 - 梯度上升：

梯度下降：找到一组参数θ，最小化成本函数C，即梯度反方向 - $\theta \rightarrow \theta - \eta \bigtriangledown C(\theta)$

梯度上升：找到一组参数θ，最大化成本函数O，即梯度同方向 - $\theta \rightarrow \theta + \eta \bigtriangledown O(\theta)$

条件随机场 - 训练：

定义目标函数：$O(w)=ΣlogP(y^{n}|x^{n})=ΣO^{n}(w)$

计算梯度：$\bigtriangledown O^{n}(w)=[... \partial O^{n}(w)/ \partial w _ {s,t} ... \partial O^{n}(w)/ \partial w _ {s,s\'}]$，s为词性，t为的单词。偏导求解得到：$\frac{\partial O^{n}(w)}{\partial w _ {s,t}}=N _ {s,t}(x^{n},y^{n}) - ΣP(y\'|x^{n})N _ {s,t}(x^{n},y\')$

其中第一项是单词t被标记为s在$(x^{n},y^{n})$中出现的次数，第二项是累加所有可能的y，每一项为单词t被标记成s，在$x _ {n}$产生任意y出现的次数，在给定$x _ {n}$下产生任意标记的几率。

实际意义解释：如果

转载注明出处：https://www.heiqu.com/zwsszd.html

Machine Learning - 李宏毅 学习笔记 (21)

相关推荐

Machine Learning - 李宏毅学习笔记 (21)