机器学习4-分类算法2

日期：2021-06-08 栏目：程序人生浏览：次

朴素贝叶斯算法朴素

假定特征与特征之间是相互独立的

贝叶斯公式

机器学习4-分类算法2

公式分为三个部分：

P(C)：每个文档类别的概率(某文档类别数／总文档数量)

P(W│C)：给定类别下特征（被预测文档中出现的词）的概率P(F1,F2,…) 预测文档中每个词的概率

计算方法：P(F1│C)=Ni/N （训练文档中去计算）

Ni为该F1词在C类别所有文档中出现的次数

N为所属类别C下的文档所有词出现的次数和

如果计算两个类别概率比较：

机器学习4-分类算法2

所以我们只要比较前面的大小就可以，得出谁的概率大

有的时候会出现为0的情况，而我们知道为0的情况不大可能出现，因此需要引进另一个参数，防止出现0

拉普拉斯平滑系数

目的：防止计算出的分类概率为0

机器学习4-分类算法2

API

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

朴素贝叶斯分类

alpha：拉普拉斯平滑系数

案例-新闻分类

机器学习4-分类算法2

分析

分割数据集

tfidf进行的特征抽取

朴素贝叶斯预测

from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import GridSearchCV from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB def nb_news(): #获取数据集 news=fetch_20newsgroups(subset="all") #划分数据集 x_train,x_test,y_train,y_test=train_test_split(news.data,news.target) #文本特征抽取 transfer=TfidfVectorizer() x_train=transfer.fit_transform(x_train) x_test=transfer.transform(x_test) #朴素贝叶斯 estimator=MultinomialNB() estimator.fit(x_train,y_train) #模型评估 # 方法1：直接比对真实值和预测值 y_predict = estimator.predict(x_test) print("y_predict:\n", y_predict) print("直接比对真实值和预测值:\n", y_test == y_predict) # 方法2：计算准确率 score = estimator.score(x_test, y_test) print("准确率为：\n", score) return None if __name__ == '__main__': nb_news()

转载注明出处：https://www.heiqu.com/wpsdjw.html

机器学习4-分类算法2

相关推荐