机器学习4-分类算法2

朴素贝叶斯算法 朴素

假定特征与特征之间是相互独立的

贝叶斯公式

机器学习4-分类算法2

公式分为三个部分:

P(C):每个文档类别的概率(某文档类别数/总文档数量)

P(W│C):给定类别下特征(被预测文档中出现的词)的概率P(F1,F2,…) 预测文档中每个词的概率

计算方法:P(F1│C)=Ni/N (训练文档中去计算)

Ni为该F1词在C类别所有文档中出现的次数

N为所属类别C下的文档所有词出现的次数和

如果计算两个类别概率比较:

机器学习4-分类算法2

 

 

 所以我们只要比较前面的大小就可以,得出谁的概率大

有的时候会出现为0的情况,而我们知道为0的情况不大可能出现,因此需要引进另一个参数,防止出现0

拉普拉斯平滑系数

目的:防止计算出的分类概率为0

机器学习4-分类算法2

 

 

 

API

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

朴素贝叶斯分类

alpha:拉普拉斯平滑系数

案例-新闻分类

机器学习4-分类算法2

分析

分割数据集

tfidf进行的特征抽取

朴素贝叶斯预测

from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import GridSearchCV from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB def nb_news(): #获取数据集 news=fetch_20newsgroups(subset="all") #划分数据集 x_train,x_test,y_train,y_test=train_test_split(news.data,news.target) #文本特征抽取 transfer=TfidfVectorizer() x_train=transfer.fit_transform(x_train) x_test=transfer.transform(x_test) #朴素贝叶斯 estimator=MultinomialNB() estimator.fit(x_train,y_train) #模型评估 # 方法1:直接比对真实值和预测值 y_predict = estimator.predict(x_test) print("y_predict:\n", y_predict) print("直接比对真实值和预测值:\n", y_test == y_predict) # 方法2:计算准确率 score = estimator.score(x_test, y_test) print("准确率为:\n", score) return None if __name__ == '__main__': nb_news()

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpsdjw.html