文本情感分析(二)：基于word2vec和glove词向量的文本表示

日期：2021-05-02 栏目：程序人生浏览：次

这篇博客还是关于文本特征工程的，用词嵌入的方法来构造文本特征，也就是用word2vec词向量和glove词向量进行文本表示，训练随机森林分类器。

一、训练word2vec词向量

Kaggle情感分析题给出了三个数据集，一个是带标签的训练集，共25000条评论，一个是测试集，无标签的，用来做预测并提交结果，这两个数据集是上一篇文章里我们用过的。

此外还有一个无标签的数据集，有50000条评论，不用太可惜了。我们可以想到，用无标签的数据可以训练word2vec词向量，进行词嵌入。与词袋模型相比，word2vec词向量能解决文本表示维度过高的问题，并且把单词之间的位置信息考虑进去了。或许，用word2vec词向量进行文本表示，能取得更好的预测结果。

下面我们先用gensim训练word2vec词向量。

首先导入所需要的库。

import os,re import numpy as np import pandas as pd from bs4 import BeautifulSoup from gensim.models import word2vec

转载注明出处：https://www.heiqu.com/wsxzpf.html

文本情感分析(二)：基于word2vec和glove词向量的文本表示

相关推荐