自然语言处理之文本分类 (2)

日期：2021-05-22 栏目：程序人生浏览：次

　　为什么分词处理？因为研究表明特征粒度为词粒度远远好于字粒度，其大部分分类算法不考虑词序信息，基于字粒度的损失了过多的n-gram信息。

　　中文分词主要分为两类方法：基于词典的中文分词和基于统计的中文分词。

基于词典的中文分词

　　核心是首先建立统一的词典表，当需要对一个句子进行分词时，首先将句子拆分成多个部分，将每一个部分与字典一一对应，如果该词语在词典中，分词成功，否则继续拆分匹配直到成功。

　　所以：字典，切分规则和匹配顺序是核心。

基于统计的中文分词方法

　　统计学认为分词是一个概率最大化问题，即拆分句子，基于语料库，统计相邻的字组成的词语出现的概率，相邻的词出现的次数多，就出现的概率大，按照概率值进行分词，所以一个完整的语料库很重要。

基于理解的分词方法

　　基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

　　3.3 去停用词

停用词(Stop Word)是一类普遍纯在与文本中的常用词，并且脱离语境它们本身并不具有明显的意义。最常用的词是一些典型的功能词，这些词构成句子的结构，但对于描述文本所表述的意义几乎没有作用，并且容易造成统计偏差，影响机器学习效果。在英文中这词如：“the”、“of”、“for”、“with”、“to”等，在中文中如：“啊”、“了”、“并且”、“因此”等。由于这些词的用处太普遍，去除这些词，对于文本分类来说没有什么不利影响，相反可能改善机器学习效果。停用词去除组件的任务比较简单，只需从停用词表中剔除定义为停用词的常用词就可以了。尽管停用词去除简单，含有潜在优势，但是停用词去除与词根还原具有同样的问题，定义停用词表中应该包含哪些词确是比较困难，一般科研中停用词表的规模为几百。

四、文本特征提取　　4.1 词袋模型

　　思想：

　　建立一个词典库，该词典库包含训练语料库的所有词语，每个词语对应一个唯一识别的编号，利用one-hot文本表示。

　　文档的词向量维度与单词向量的维度相同，每个位置的值是对应位置词语在文档中出现的次数，即词袋模型（BOW）

　　问题：

　　（1）容易引起维度灾难问题，语料库太大，字典的大小为每个词的维度，高维度导致计算困难，每个文档包含的词语数少于词典的总词语数，导致文档稀疏。（2）仅仅考虑词语出现的次数，没有考虑句子词语之间的顺序信息，即语义信息未考虑

　　4.2 TF-IDF文本特征提取

　　利用TF和IDF两个参数来表示词语在文本中的重要程度。

　　TF是词频：指的是一个词语在一个文档中出现的频率，一般情况下，每一个文档中出现的词语的次数越多词语的重要性更大，例如BOW模型一样用出现次数来表示特征值，即出现文档中的词语次数越多，其权重就越大，问题就是在长文档中的词语次数普遍比短文档中的次数多，导致特征值偏向差异情况。

　　TF体现的是词语在文档内部的重要性。

　　IDF是体现词语在文档间的重要性：即如果某个词语出现在极少数的文档中，说明该词语对于文档的区别性强，对应的特征值高，IDF值高，IDFi=log（|D|/Ni），D指的是文档总数，Ni指的是出现词语i的文档个数，很明显Ni越小，IDF的值越大。

最终TF-IDF的特征值的表达式为：$TF-IDF(i,j)=TF_{ij}*IDF_{i}$

　　4.3 基于词向量的特征提取模型

转载注明出处：https://www.heiqu.com/wpgjwg.html

自然语言处理之文本分类 (2)

相关推荐