自然语言处理之序列标注问题

日期：2021-06-05 栏目：程序人生浏览：次

　　序列标注问题是自然语言中最常见的问题，在深度学习火起来之前，常见的序列标注问题的解决方案都是借助于HMM模型，最大熵模型，CRF模型。尤其是CRF，是解决序列标注问题的主流方法。随着深度学习的发展，RNN在序列标注问题中取得了巨大的成果。而且深度学习中的end-to-end，也让序列标注问题变得更简单了。

　　序列标注问题包括自然语言处理中的分词，词性标注，命名实体识别，关键词抽取，词义角色标注等等。我们只要在做序列标注时给定特定的标签集合，就可以进行序列标注。

　　序列标注问题是NLP中最常见的问题，因为绝大多数NLP问题都可以转化为序列标注问题，虽然很多NLP任务看上去大不相同，但是如果转化为序列标注问题后其实面临的都是同一个问题。所谓“序列标注”，就是说对于一个一维线性输入序列：

自然语言处理之序列标注问题

　　给线性序列中的每个元素打上标签集合中的某个标签：

自然语言处理之序列标注问题

　　所以，其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。一般情况下，对于NLP任务来说，线性序列就是输入的文本，往往可以把一个汉字看做线性序列的一个元素，而不同任务其标签集合代表的含义可能不太相同，但是相同的问题都是：如何根据汉字的上下文给汉字打上一个合适的标签（无论是分词，还是词性标注，或者是命名实体识别，道理都是想通的）。

序列标注问题之中文分词

　　以中文分词任务来说明序列标注的过程。假设现在输入句子“跟着TFboys学左手右手一个慢动作”，我们的任务是正确地把这个句子进行分词。首先，把句子看做是一系列单字组成的线性输入序列，即：

自然语言处理之序列标注问题

　　序列标注的任务就是给每个汉字打上一个标签，对于分词任务来说，我们可以定义标签集合为（jieba分词中的标签集合也是这样的）：

自然语言处理之序列标注问题

　　其中B代表这个汉字是词汇的开始字符，M代表这个汉字是词汇的中间字符，E代表这个汉字是词汇的结束字符，而S代表单字词。

自然语言处理之序列标注问题

　　有了这四个标签就可以对中文进行分词了。这时你看到了，中文分词转换为对汉字的序列标注问题，假设我们已经训练好了序列标注模型，那么分别给每个汉字打上标签集合中的某个标签，这就算是分词结束了，因为这种形式不方便人来查看，所以可以增加一个后处理步骤，把B开头，后面跟着M的汉字拼接在一起，直到碰见E标签为止，这样就等于分出了一个单词，而打上S标签的汉字就可以看做是一个单字词。于是我们的例子就通过序列标注，被分词成如下形式：

自然语言处理之序列标注问题

　　在这里我们可以采用双向LSTM来处理该类问题，双向会关注上下文的信息。

　　在NLP中最直观的处理问题的方式就是要把问题转换为序列标注问题，思考问题的思维方式也就转换为序列标注思维，这个思维很重要，决定你能否真的处理好NLP问题。

序列标注之命名实体识别（NER）

　　我们再来看看命名实体识别问题中的序列标注，命名实体识别任务是识别句子中出现的实体，通常识别人名、地名、机构名这三类实体。现在的问题是：假设输入中文句子

转载注明出处：https://www.heiqu.com/wpxjfw.html

自然语言处理之序列标注问题

相关推荐