文本分类,数据挖掘和机器学习 (12)

文本分类入门(十一)特征选择方法之信息增益

  与刚才的式子对照一下,含义很清楚对吧,P(t)就是T出现的概率,

文本分类入门(十一)特征选择方法之信息增益

就是T不出现的概率。这个式子可以进一步展开,其中的

文本分类入门(十一)特征选择方法之信息增益

  另一半就可以展开为:

文本分类入门(十一)特征选择方法之信息增益

  因此特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差:

文本分类入门(十一)特征选择方法之信息增益

  公式中的东西看上去很多,其实也都很好计算。比如P(Ci),表示类别Ci出现的概率,其实只要用1除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去)。再比如P(t),就是特征T出现的概率,只要用出现过T的文档数除以总文档数就可以了,再比如P(Ci|t)表示出现T的时候,类别Ci出现的概率,只要用出现了T并且属于类别Ci的文档数除以出现了T的文档数就可以了。

从以上讨论中可以看出,信息增益也是考虑了特征出现和不出现两种情况,与开方检验一样,是比较全面的,因而效果不错。但信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

=======================================================

文本分类入门系列所有文章的参考文献集中列于此,其他文章中再做引用时仅列出标号,不再重复写出作者和出版物,出版年份等信息.
[1]李晓明,闫宏飞,王继民,“搜索引擎——原理、技术与系统”.科学出版社,2004
[2]冯是聪, "中文网页自动分类技术研究及其在搜索引擎中的应用," 北京大学,博士论文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR\'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intel***ce, Buenos Aires, AR, 1999
[5]王涛:文本自动分类研究,图书馆学研究,2007.12
[6]周文霞:现代文本分类技术研究,武警学院学报,2007.12
[7]奉国和:自动文本分类技术研究,情报杂志,2007.12
[8]崔彩霞,张朝霞:文本分类方法对比研究,太原师范学院学报(自然科学版),2007.12
[9]吴军:Google黑板报数学之美系列,
[10]刘霞,卢苇:SVM在文本分类中的应用研究,计算机教育,2007.1
[11]都云琪,肖诗斌:基于支持向量机的中文文本自动分类研究,计算机工程,2002,28(11)
[12]周昭涛,卜东波:文本的图表示初探,中文信息学报,第19卷 第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生,张磊:文本分类研究进展
[15]李莼,罗振声:基于语义相关和概念相关的自动分类方法研究,计算机工程与应用,2003.12
[16]单松巍,冯是聪,李晓明:几种典型特征选取方法在中文网页分类上的效果比较,计算机工程与应用,2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97),l997
[18]董振东:知网简介,知网,
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies,1997
[20] Edda  Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines:How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司,TRS文本挖掘基础件白皮书
[25]苏金树,张博锋:基于机器学习的文本分类技术研究进展,Journal of Software,2006.9

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgzjpz.html