一个使用fasttext训练的新闻文本分类器/模型

Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库。优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型。

本文主要内容?

使用fasttext训练一个效果不错的新闻文本分类器/模型。

使用到的技术和环境?

1. python 3.7、fasttext 0.9.1(截至2020/3/29最新版本) Windows 10 (实验过程中使用的环境)

2. 1核2G 1Mbps 腾讯云服务器 Ubuntu 18.04 (最终的模型产出于此,如果你手头有Linux系统,那最好不过了)

需要注意什么?

1. 博主并非是专业的NLP学习者,所以以下内容是参考诸多博客、官方doc以及GitHub上的项目说明而来,算是拾人牙慧。但总结一些坑,便于后来者食用。

2. 强烈建议使用Linux or Mac OS 系统来训练,哪怕你是要在Windows下使用(训练的模型是可以多系统之间通用的,比如我在Linux-Ubuntu中训练,在Windows上可以正常使用)。但是在Windows下训练也是可行的,至少可以通过python安装fasttext库来使用,但是会有问题——无法进行自动超参数优化(至少目前如此)。

重要的文档?

官方的文档及博客 GitHub fastext 项目 

Let's start

Step1: 准备训练集和测试集 

这里的参考训练测试集来自 一位博主博客,他已经进行过中文分词,所以可以直接拿来训练。

下载地址(如果地址失效,请在博客下方留言评论,或者尝试联系上方QQ/Email)

news_fasttext_train.txt 训练集365M
news_fasttext_test.txt 测试集310M

如果上述链接失效,可从下述链接获取:

链接:https://pan.baidu.com/s/1izR-0oUFhZ4v5lrVYFng6A
提取码:n5w6

Step2: 在机器上构建fasttext

1. Windows 10 os : 过程中发现许多人在安装时遇到了问题,这里建议直接使用python pip工具安装

pip/pip3 install fastext

安装成功后,import它即可。

2. Linux  os : 按照官网教程,下面照搬过来

命令行键入:

$ git clone https://github.com/facebookresearch/fastText.git $ cd fastText $ make

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzdfxp.html