朴素贝叶斯算法 朴素
假定特征与特征之间是相互独立的
贝叶斯公式
公式分为三个部分:
P(C):每个文档类别的概率(某文档类别数/总文档数量)
P(W│C):给定类别下特征(被预测文档中出现的词)的概率P(F1,F2,…) 预测文档中每个词的概率
计算方法:P(F1│C)=Ni/N (训练文档中去计算)
Ni为该F1词在C类别所有文档中出现的次数
N为所属类别C下的文档所有词出现的次数和
如果计算两个类别概率比较:
所以我们只要比较前面的大小就可以,得出谁的概率大
有的时候会出现为0的情况,而我们知道为0的情况不大可能出现,因此需要引进另一个参数,防止出现0
拉普拉斯平滑系数目的:防止计算出的分类概率为0
API
sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
朴素贝叶斯分类
alpha:拉普拉斯平滑系数
案例-新闻分类分析
分割数据集
tfidf进行的特征抽取
朴素贝叶斯预测
from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import GridSearchCV from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB def nb_news(): #获取数据集 news=fetch_20newsgroups(subset="all") #划分数据集 x_train,x_test,y_train,y_test=train_test_split(news.data,news.target) #文本特征抽取 transfer=TfidfVectorizer() x_train=transfer.fit_transform(x_train) x_test=transfer.transform(x_test) #朴素贝叶斯 estimator=MultinomialNB() estimator.fit(x_train,y_train) #模型评估 # 方法1:直接比对真实值和预测值 y_predict = estimator.predict(x_test) print("y_predict:\n", y_predict) print("直接比对真实值和预测值:\n", y_test == y_predict) # 方法2:计算准确率 score = estimator.score(x_test, y_test) print("准确率为:\n", score) return None if __name__ == '__main__': nb_news()