自然语言处理基础技术之分词、向量化、词性标注 (2)

日期：2021-06-20 栏目：程序人生浏览：次

状态转移矩阵，在马尔科夫模型里面十分重要，在HMM中，假设当前状态只与上一个状态有关，而这个关系我们可以使用转移矩阵来表示，在这里我们是一个44的矩阵；

条件概率矩阵，HMM中，观察值只取决于当前状态值（假设条件），条件概率矩阵主要建模在BMES下各个词的不同概率，和初始化概率、状态转移矩阵一样，我们需要在语料中计算得到对应的数据。

举个例子来说明下：如大家都爱北京天安门，我们初始化一个weight[4][9],则数组第一列值为初始化概率条件概率集，依次为：P(B)P(大|B)，P(E)P(大|E)，P(M)P(大|M),P(E)*P(大|E)。然后根据转移概率计算下一个字的状态概率分布：weight[k][i-1] + _transProb[k][j] +_emitProb[j][sentence[i]]，依次到最后即可，即可计算句子中所有词的状态分布，然后确定好边界对比条件，即可计算出对应状态序列。 HMM是中文分词中一种很常见的分词方法，由上述描述我们知道，其分词状态主要依赖于语料的标注，通过语料初始化概率、状态转移矩阵、条件概率矩阵的计算，对需要分词的句子来进行计算，简单来说，是通过模型学习到对应词的历史状态经验，然后在新的矩阵中取使用。HMM的模型计算简单，且通常非常有效，对词典中未出现词有比较好的效果。

更复杂的概率分词模型：CRF

这里我们提到的CRF，不是广义的CRF，而是线性链式CRF，和HMM一样，CRF的分词问题，同样是一个序列标注问题，将BEMS标注到句子中的不同词上，相对与HMM，CRF能够利用更多特征，数学原理不讲啦，都是图加概率模型的解释，有兴趣的可以去看下

自然语言处理基础技术之分词、向量化、词性标注

和HMM不同的是，HMM描述的是已知量和未知量的一个联合概率分布，属于generative model，而CRF则是建模条件概率，属于discriminative model。另外CRF特征更加丰富，可通过自定义特征函数来增加特征信息，通常CRF能建模的信息应该包括HMM的状态转移、数据初始化的特征，CRF理论和实践上通常都优于HMM，CRF主要包括两部分特征：一，简单特征，只涉及当前状态的特征；二，转移特征，涉及到两种状态之间的特征；特征模板的说明可以看下 https://taku910.github.io/crfpp/

深度学习在分词上的尝试: bi-lstm+crf

自然语言处理基础技术之分词、向量化、词性标注

基本做法包括：首先，训练字向量，使用word2vec对语料的字训练50维的向量，然后接入一个bi-lstm，用来建模整个句子本身的语义信息，最后接入一个crf完成序列标注工作，bi-lstm+crf可以用来完成分词、词性标注这类的工作。这个我会在之后做一些相关的尝试。

词向量

词向量是在NLP中比较基础的一个工作，相对计算机而言，人要聪明的多，人很容易明白幸福和开心是两个比较近的词，而计算机要想了解，其实是很难的，而在现代计算机中，对语言的理解显得越来越重要，如何去表示一个词，也成为了理解语言的基础。

one-hot编码

One-hot编码可能是最简单的一种编码方法，每个词只在对应的index置1，其他位置都是0，One-hot编码的问题在于很难做相似度计算，在大规模语料上时，One-hot编码的长度可能为几十万、几百万甚至更大，One-hot编码显然不行；

矩阵分解方法(LSA)

"You shall know a word by the company it keeps" --Firth, J. R

针对一个词来说，它的语义由其上下文决定。 LSA使用词-文档矩阵，矩阵通常是一个稀疏矩阵，其行代表词语、其列代表文档。词-文档矩阵表示中的值表示词在该文章出现的次数，通常，我们可以简单地通过文档的出现次数分布来表示对应的词，但是由于这个矩阵通常是比较稀疏的，我们可以利用矩阵分解，学习到对应词的低秩表示，这个表示建模了文档中词的共现关系,让相似度的计算变得更加容易。同理，可以也可以在更小粒度上计算矩阵的构建，如设定指定窗口大小，若在该窗口内出现，则数值加一，构建好词-词共现矩阵，最终使用如svd这类的矩阵分解方法即可。这类方法明显的弊病在于当copur过大时，计算很消耗资源，且对于未出现词或者新文档不友好。

Word2Vec

关于Word2vec有很多很好的学习资料，大致包括CBOW和Skip-gram模型，其中CBOW的输入就是上下文的表示，然后对目标词进行预测;skip-gram每次从目标词w的上下文c中选择一个词，将其词向量作为模型的输入。之前有写Word2vec的文章可以简单看看Stanford CS224d笔记之Word2Vec.

转载注明出处：https://www.heiqu.com/zyzzjj.html

自然语言处理基础技术之分词、向量化、词性标注 (2)

相关推荐