文本分类，数据挖掘和机器学习 (9)

日期：2022-08-29 栏目：程序人生浏览：次

　　此时我们仍然需要明白对特征选择来说原假设是什么，因为计算出的开方值越大，说明对原假设的偏离越大，我们越倾向于认为原假设的反面情况是正确的。我们能不能把原假设定为“词t与类别c相关“？原则上说当然可以，但此时你会发现根本不知道此时的理论值该是多少！你会把自己绕进死胡同。所以我们一般都使用”词t与类别c不相关“来做原假设。选择的过程也变成了为每个词计算它与类别c的开方值，从大到小排个序（此时开方值越大越相关），取前k个就可以（k值可以根据自己的需要选）。

　　好，原理有了，该来个例子说说到底怎么算了。

　　比如说现在有N篇文档，其中有M篇是关于体育的，我们想考察一个词“篮球”与类别“体育”之间的相关性。我们有四个观察值可以使用：

　　1. 包含“篮球”且属于“体育”类别的文档数，命名为A

　　2. 包含“篮球”但不属于“体育”类别的文档数，命名为B

　　3. 不包含“篮球”但却属于“体育”类别的文档数，命名为C

　　4. 既不包含“篮球”也不属于“体育”类别的文档数，命名为D

　　用下面的表格更清晰：

特征选择 1．属于“体育” 2．不属于“体育” 总　计

1．包含“篮球” A B A+B

2．不包含“篮球” C D C+D

总　数 A+C B+D N

　　如果有些特点你没看出来，那我说一说，首先，A+B+C+D=N。其次，A+C的意思其实就是说“属于体育类的文章数量”，因此，它就等于M，同时，B+D就等于N-M。

　　好，那么理论值是什么呢？以包含“篮球”且属于“体育”类别的文档数为例。如果原假设是成立的，即“篮球”和体育类文章没什么关联性，那么在所有的文章中，“篮球”这个词都应该是等概率出现，而不管文章是不是体育类的。这个概率具体是多少，我们并不知道，但他应该体现在观察结果中（就好比抛硬币的概率是二分之一，可以通过观察多次抛的结果来大致确定），因此我们可以说这个概率接近

文本分类入门（十）特征选择算法之开方检验

　　（因为A+B是包含“篮球”的文章数，除以总文档数就是“篮球”出现的概率，当然，这里认为在一篇文章中出现即可，而不管出现了几次）而属于体育类的文章数为A+C，在这些个文档中，应该有

文本分类入门（十）特征选择算法之开方检验

　　篇包含“篮球”这个词（数量乘以概率嘛）。

　　此时对这种情况的差值就得出了（套用式（1）的公式），应该是

转载注明出处：https://www.heiqu.com/zgzjpz.html

文本分类，数据挖掘和机器学习 (9)

相关推荐