理论 | 朴素贝叶斯模型算法研究与实例分析 (3)

我们认为两种类别是等概率的,也就是P(male)= P(female) = 0.5。在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定P(C),我们得到的结果也是一样的。

测试数据

以下给出一个待分类是男性还是女性的样本。

性别 身高(英尺) 体重(磅) 脚的尺寸(英尺)
sample   6   130   8  

我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取

理论 | 朴素贝叶斯模型算法研究与实例分析

女性的后验概率通过下面式子来求取

理论 | 朴素贝叶斯模型算法研究与实例分析

证据因子(通常是常数)用来对各类的后验概率之和进行归一化.

理论 | 朴素贝叶斯模型算法研究与实例分析

证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我们来判定这样样本的性别。

理论 | 朴素贝叶斯模型算法研究与实例分析

理论 | 朴素贝叶斯模型算法研究与实例分析


其中

理论 | 朴素贝叶斯模型算法研究与实例分析

是训练集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.

集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.

理论 | 朴素贝叶斯模型算法研究与实例分析

模型预测结果

由于女性后验概率的分子比较大,所以我们预计这个样本是女性。

参考文献

scikit中文社区:

中文维基百科:https://zh.wikipedia.org/wiki/

文本分类特征选择:https://www.cnblogs.com/june0507/p/7601001.html

GitHub:https://github.com/BaiNingchao/MachineLearning-1

图书:《机器学习实战》

图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:


理论 | 朴素贝叶斯模型算法研究与实例分析

作者声明

本文版权归作者白宁超所有,本文原创,旨在学术和科研使用。文章同步如下:

博客园

我爱自然语言处理

阿里云栖 https://yq.aliyun.com/u/baiboy

腾讯云社区https://cloud.tencent.com/developer/user/2991686

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyjxzx.html