构建一个垃圾邮件分类器
对于垃圾邮件,我们可以人为的挑选若干个关键词作为识别垃圾邮件判断的特征,而在实际应用中,我们应该遍历整个训练集,在训练集中找出出现次数最多的n个单词,n介于10,000和50,000之间,将这些单词作为所选用的特征。根据所找到的特征集合,我们可以为每一个邮件构建一个向量,如果在电子邮件中找到一个字,我们将分配其相应的项1,否则这一项将为0,即向量的每一项表示一个单词。一旦我们准备好所有的x向量,我们就会训练我们的算法,最后, 我们可以使用它来分类邮件是否是垃圾邮件。
构建一个垃圾邮件分类器
对于垃圾邮件,我们可以人为的挑选若干个关键词作为识别垃圾邮件判断的特征,而在实际应用中,我们应该遍历整个训练集,在训练集中找出出现次数最多的n个单词,n介于10,000和50,000之间,将这些单词作为所选用的特征。根据所找到的特征集合,我们可以为每一个邮件构建一个向量,如果在电子邮件中找到一个字,我们将分配其相应的项1,否则这一项将为0,即向量的每一项表示一个单词。一旦我们准备好所有的x向量,我们就会训练我们的算法,最后, 我们可以使用它来分类邮件是否是垃圾邮件。
内容版权声明:除非注明,否则皆为本站原创文章。