我们认为两种类别是等概率的,也就是P(male)= P(female) = 0.5。在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定P(C),我们得到的结果也是一样的。
测试数据以下给出一个待分类是男性还是女性的样本。
性别 身高(英尺) 体重(磅) 脚的尺寸(英尺)sample 6 130 8
我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取
女性的后验概率通过下面式子来求取
证据因子(通常是常数)用来对各类的后验概率之和进行归一化.
证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我们来判定这样样本的性别。
其中 是训练集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.
集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.
模型预测结果由于女性后验概率的分子比较大,所以我们预计这个样本是女性。
参考文献scikit中文社区:
中文维基百科:https://zh.wikipedia.org/wiki/
文本分类特征选择:https://www.cnblogs.com/june0507/p/7601001.html
GitHub:https://github.com/BaiNingchao/MachineLearning-1
图书:《机器学习实战》
图书:《自然语言处理理论与实战》
完整代码下载源码请进【机器学习和自然语言QQ群:436303759】文件下载:
作者声明
本文版权归作者白宁超所有,本文原创,旨在学术和科研使用。文章同步如下:
博客园
我爱自然语言处理
阿里云栖 https://yq.aliyun.com/u/baiboy
腾讯云社区https://cloud.tencent.com/developer/user/2991686