一份超级全面的机器学习公共数据集 (3)

日期：2021-05-27 栏目：程序人生浏览：次

维基百科的全文数据集，包含来自超过400万篇文章的近19亿个单词。可以按单词，短语或段落本身的一部分进行搜索。
Wikipedia Links data: https://code.google.com/archive/p/wiki-links/downloads

Groject Gutenberg 中带注释的电子书清单。
Gutenberg eBooks List: :Offline_Catalogs

130万对加拿大第36届国会记录中的文字。
Hansards text chunks of Canadian Parliament: https://www.isi.edu/natural-language/download/hansard/

测验节目Jeopardy存档了超过20万个问题。
Jeopardy:

由5,574条英文SMS垃圾邮件组成的数据集
SMS Spam Collection in English: ~tiago/smsspamcollection/

Yelp发布的开放数据集包含超过500万条评论。
Yelp Reviews: https://www.yelp.com/dataset

大型垃圾邮件电子邮件数据集，可用于垃圾邮件过滤。
UCI’s Spambase: https://archive.ics.uci.edu/ml/datasets/Spambase

机器学习保险行业问答开放数据集
https://github.com/shuzi/insuranceQA

保险行业问答(QA)数据集
https://github.com/shuzi/insuranceQA

文本简化数据集
~dkauchak/simplification/

英语词/句/语义框架框架标注数据集
https://framenet.icsi.berkeley.edu/fndrupal/

Quora数据集：400000行潜在重复问题

文本分类数据集

20 newsgroups：分类任务，将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一，通常可用作纯分类的基准或任何 IR / 索引算法的验证
~jason/20Newsgroups

路透社新闻数据集：（较旧）纯粹基于分类的数据集，包含来自新闻专线的文本。常用于教程
https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collectio

宾州树库：用于下一个单词或字符预测
~treebank

UCI‘s Spambase：来自著名的 UCI 机器学习库的（旧版）经典垃圾邮件数据集。根据数据集的组织细节，可以将它作为学习私人垃圾邮件过滤的基线
https://archive.ics.uci.edu/ml/datasets/Spambas

Broadcast News：大型文本数据集，通常用于下一个单词预测
?catalogId=LDC97S4

文本分类数据集：来自 Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等，范围从二进制到 14 个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo！和 AG
https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2

WikiText：来自维基百科高质量文章的大型语言建模语料库，由 Salesforce MetaMind 策划

SQuAD：斯坦福问答数据集——应用广泛的问答和阅读理解数据集，其中每个问题的答案都以文本形式呈现
https://rajpurkar.github.io/SQuAD-explorer

Billion Words 数据集：一种大型通用语言建模数据集。通常用于训练分布式单词表征，如 word2vec

Common Crawl：网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集，因为它可在万维网进行抓取

Google Books Ngrams：来自 Google book 的连续字符。当单词首次被广泛使用时，提供一种简单的方法来探索
https://aws.amazon.com/datasets/google-books-ngrams

Yelp 开源数据集：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集
https://www.yelp.com/dataset

9. 推荐和排名系统

Movielens：来自 Movielens 网站的电影评分数据集，各类大小都有
https://grouplens.org/datasets/movielens

Million Song 数据集：Kaggle 上元数据丰富的大型开源数据集，可以帮助人们使用混合推荐系统
https://www.kaggle.com/c/msdchalleng

Last.fm：音乐推荐数据集，可访问深层社交网络和其它可用于混合系统的元数据

Book-Crossing 数据集：来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分
~cziegler/BX

Jester：来自 73,421 名用户对 100 个笑话的 410 万个连续评分（分数从 -10 至 10）
~goldberg/jester-data

转载注明出处：https://www.heiqu.com/wpjywz.html

一份超级全面的机器学习公共数据集 (3)

相关推荐