文本分类,数据挖掘和机器学习 (9)

  此时我们仍然需要明白对特征选择来说原假设是什么,因为计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的。我们能不能把原假设定为“词t与类别c相关“?原则上说当然可以,但此时你会发现根本不知道此时的理论值该是多少!你会把自己绕进死胡同。所以我们一般都使用”词t与类别c不相关“来做原假设。选择的过程也变成了为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以(k值可以根据自己的需要选)。

  好,原理有了,该来个例子说说到底怎么算了。

  比如说现在有N篇文档,其中有M篇是关于体育的,我们想考察一个词“篮球”与类别“体育”之间的相关性。我们有四个观察值可以使用:

  1. 包含“篮球”且属于“体育”类别的文档数,命名为A

  2. 包含“篮球”但不属于“体育”类别的文档数,命名为B

  3. 不包含“篮球”但却属于“体育”类别的文档数,命名为C

  4. 既不包含“篮球”也不属于“体育”类别的文档数,命名为D

  用下面的表格更清晰:

特征选择                  1.属于“体育”                     2.不属于“体育”                         总 计

1.包含“篮球”                 A                                      B                                       A+B

2.不包含“篮球”              C                                      D                                       C+D

总 数                       A+C                                    B+D                                      N

  如果有些特点你没看出来,那我说一说,首先,A+B+C+D=N。其次,A+C的意思其实就是说“属于体育类的文章数量”,因此,它就等于M,同时,B+D就等于N-M。

  好,那么理论值是什么呢?以包含“篮球”且属于“体育”类别的文档数为例。如果原假设是成立的,即“篮球”和体育类文章没什么关联性,那么在所有的文章中,“篮球”这个词都应该是等概率出现,而不管文章是不是体育类的。这个概率具体是多少,我们并不知道,但他应该体现在观察结果中(就好比抛硬币的概率是二分之一,可以通过观察多次抛的结果来大致确定),因此我们可以说这个概率接近

文本分类入门(十)特征选择算法之开方检验

  (因为A+B是包含“篮球”的文章数,除以总文档数就是“篮球”出现的概率,当然,这里认为在一篇文章中出现即可,而不管出现了几次)而属于体育类的文章数为A+C,在这些个文档中,应该有

文本分类入门(十)特征选择算法之开方检验

  篇包含“篮球”这个词(数量乘以概率嘛)。

  此时对这种情况的差值就得出了(套用式(1)的公式),应该是

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgzjpz.html