理论 | 朴素贝叶斯模型算法研究与实例分析 (3)

日期：2021-07-16 栏目：程序人生浏览：次

我们认为两种类别是等概率的，也就是P(male)= P(female) = 0.5。在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定P(C)，我们得到的结果也是一样的。

测试数据

以下给出一个待分类是男性还是女性的样本。

性别身高(英尺) 体重(磅) 脚的尺寸(英尺)
sample 6 130 8

我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取

$理论 | 朴素贝叶斯模型算法研究与实例分析$

女性的后验概率通过下面式子来求取

$理论 | 朴素贝叶斯模型算法研究与实例分析$

证据因子（通常是常数）用来对各类的后验概率之和进行归一化.

$理论 | 朴素贝叶斯模型算法研究与实例分析$

证据因子是一个常数（在正态分布中通常是正数），所以可以忽略。接下来我们来判定这样样本的性别。

$理论 | 朴素贝叶斯模型算法研究与实例分析$

其中

$理论 | 朴素贝叶斯模型算法研究与实例分析$

是训练集样本的正态分布参数. 注意，这里的值大于1也是允许的 – 这里是概率密度而不是概率，因为身高是一个连续的变量.

集样本的正态分布参数. 注意，这里的值大于1也是允许的 – 这里是概率密度而不是概率，因为身高是一个连续的变量.

$理论 | 朴素贝叶斯模型算法研究与实例分析$

模型预测结果

由于女性后验概率的分子比较大，所以我们预计这个样本是女性。

参考文献

scikit中文社区：

中文维基百科：https://zh.wikipedia.org/wiki/

文本分类特征选择：https://www.cnblogs.com/june0507/p/7601001.html

GitHub：https://github.com/BaiNingchao/MachineLearning-1

图书：《机器学习实战》

图书：《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群：436303759】文件下载：

理论 | 朴素贝叶斯模型算法研究与实例分析

作者声明

本文版权归作者白宁超所有，本文原创，旨在学术和科研使用。文章同步如下：

博客园

我爱自然语言处理

阿里云栖 https://yq.aliyun.com/u/baiboy

腾讯云社区https://cloud.tencent.com/developer/user/2991686