理论 | 朴素贝叶斯模型算法研究与实例分析

理论 | 朴素贝叶斯模型算法研究与实例分析 (白宁超 2018年9月3日17:51:32)

导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果。所以很受欢迎,对于朴素贝叶斯的学习,本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导,为了加深理解,采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法,并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用,包括创建数据集、数据预处理、词集模型和词袋模型、朴素贝叶斯模型训练和优化等。然后结合复旦大学新闻语料进行朴素贝叶斯的应用。最后,大家熟悉其原理和实现之后,采用机器学习sklearn包进行实现和优化。由于篇幅较长,采用理论理解、案例实现、sklearn优化三个部分进行学习。(本文原创,转载必须注明出处:理论 | 朴素贝叶斯模型算法研究与实例分析)

朴素贝叶斯理论 朴素贝叶斯概述

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

特征独立理解的例子:如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够获取相当好的效果。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。

朴素贝叶斯模型

朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法,即“简单”地假设每对特征之间相互独立。 给定一个类别

理论 | 朴素贝叶斯模型算法研究与实例分析

和一个从

理论 | 朴素贝叶斯模型算法研究与实例分析

理论 | 朴素贝叶斯模型算法研究与实例分析

的相关的特征向量,贝叶斯定理阐述了以下关系:

理论 | 朴素贝叶斯模型算法研究与实例分析

使用简单(naive)的假设-每对特征之间都相互独立:

理论 | 朴素贝叶斯模型算法研究与实例分析

对于所有的 math: i ,这个关系式可以简化为

理论 | 朴素贝叶斯模型算法研究与实例分析

由于在给定的输入中

理论 | 朴素贝叶斯模型算法研究与实例分析

是一个常量,我们使用下面的分类规则:

理论 | 朴素贝叶斯模型算法研究与实例分析

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyjxzx.html