$ ΣlogP(x _ {l}|y _ {l}) = ΣlogP(t|s) \cdot N _ {s,t}(x,y) \(等价于两个向量做内积,进而可以用\)w \cdot \phi (x,y)\(表示,因此隐马尔可夫模型的\)logP(t|s)\(转为对应维度上的权重(出现几率),\) \phi (x,y)\(表示\)N _ {s,t}(x,y)$,标签与单词、标签之间的特征向量,很大的一个稀疏矩阵。
条件随机场 - 训练标准:
找到一个权重向量取最大化目标函数O(w),即使得最大化给定的x所产生y正确标记的几率,对其其对数进行累加:\(w\' = argmaxO(w)\),\(O(w)=ΣlogP(y^{n}|x^{n})\)。类似于交叉熵,也是最大化正确维度的几率再取对数,只不过现在是针对整个序列而言。
对\(logP(y|x)\)进行变换:\(P(y|x)=\frac{P(x,y)}{ΣP(x,y\')}\),\(logP(y^{n}|x^{n})=logP(x^{n},y^{n}) - logΣP(x^{n},y\')\),根据CRF定义即前项最大化观测到的几率,后项最小化未知的几率。
条件随机场 - 梯度上升:
梯度下降:找到一组参数θ,最小化成本函数C,即梯度反方向 - \(\theta \rightarrow \theta - \eta \bigtriangledown C(\theta)\)
梯度上升:找到一组参数θ,最大化成本函数O,即梯度同方向 - \(\theta \rightarrow \theta + \eta \bigtriangledown O(\theta)\)
条件随机场 - 训练:
定义目标函数:\(O(w)=ΣlogP(y^{n}|x^{n})=ΣO^{n}(w)\)
计算梯度:\(\bigtriangledown O^{n}(w)=[... \partial O^{n}(w)/ \partial w _ {s,t} ... \partial O^{n}(w)/ \partial w _ {s,s\'}]\),s为词性,t为的单词。偏导求解得到:\(\frac{\partial O^{n}(w)}{\partial w _ {s,t}}=N _ {s,t}(x^{n},y^{n}) - ΣP(y\'|x^{n})N _ {s,t}(x^{n},y\')\)
其中第一项是单词t被标记为s在\((x^{n},y^{n})\)中出现的次数,第二项是累加所有可能的y,每一项为单词t被标记成s,在\(x _ {n}\)产生任意y出现的次数,在给定\(x _ {n}\)下产生任意标记的几率。
实际意义解释:如果