在上面的例子中,还有一些可以进行改进的地方,例如可以在前期建立情感词库,在特征值提取的过程中只提取情感词,去除其余无用词汇(如介词等)对分类的影响,只选取关键的代表词作为特征提取,达到更高的分类效率。另外,可以在建立词库时,将测试集的情感词也放入词库,避免出现在某个分类条件下似然概率为零的情况,简化平滑步骤。
此外,朴素贝叶斯的分类对于追加训练集的情况有很好的应用,如果训练集不断的增加,可以在现有训练模型的基础上添加新的样本值、或对已有的样本值的属性进行修改,在此基础上,可以实现增量的模型修改。
如果文章对您有所帮助,欢迎关注公众号 码农参上