机器学习项目实战----新闻分类任务(一)

日期：2021-06-10 栏目：程序人生浏览：次

假设有一份文本数据如下，数据量很大，现在要对整个语料库进行文本分析，category代表新闻种类，theme代表新闻主题，URL代表新闻链接地址，content代表新闻主题内容

停用词：在content这一列，在数据量很大的情况，很容易发现某些似乎与新闻本身意义不大的词大量出现，而我们就把这些在语料库中大量出现但是又没啥大用的词叫做停用词，在数据集链接中包含一份常见的停用词，如下所示：

机器学习项目实战----新闻分类任务(一)

TF-IDF：用于关键词提取。比如在一篇名叫《中国的蜜蜂养殖》这篇文章中进行词频（Term Frequency，缩写为TF）统计出现次数最多的词是“的”、“是”、“在”等这一类最常用的词（停用词，一般来说是要去掉的），在删除掉停用词过后我们发现“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多，那么这三个词的重要性是一样的吗？一般来说"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见。这时就需要引入一个叫做逆文档频率来进行衡量。"逆文档频率"（Inverse Document Frequency，缩写为IDF）如果某个词相比较于整个语料库来说比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，那它正是我们所需要的关键词。

计算公式

机器学习项目实战----新闻分类任务(一)

TF-IDF = 词频(TF) * 逆文档频率(IDF)。还是在《中国的蜜蜂养殖》这篇文章中：假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，则这三个词的"词频"（TF）都为0.02。搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数(也就是语料库)。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张。

机器学习项目实战----新闻分类任务(一)