一份超级全面的机器学习公共数据集 (2)

MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效

CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查
~kriz/cifar.htm

Caltech 101:101 类物体的图片

Caltech 256:256 类物体的图片

STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10
~acoates/stl10

The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST

NORB:玩具摆件在各种照明和姿势下的双目图像
~ylclab/data/norb-v1.0

Pascal VOC:通用图像分割 / 分类——对于构建真实世界图像注释不是非常有用,但对基线很有用

Labelme:带注释图像的大型数据集

ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构

LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency * prediction)等),有关联竞赛。(associated competition)
地址:
MS COCO:通用图像理解 / 说明,有关联竞赛

COIL 20:不同物体在 360 度旋转中以每个角度成像
地址:
COIL100:不同物体在 360 度旋转中以每个角度成像

Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别
https://research.googleblog.com/2016/09/introducing-open-images-dataset.htm

4. 情感分析数据集

情感分析模型需要庞大的专业数据集才能有效学习,以下所列数据集提供了用于情感分析的一些数据。

亚马逊商品评价数据集
Multidomain sentiment analysis dataset: ~mdredze/datasets/sentiment/

二元情感分类数据集,包含25000条电影评论
IMDB Reviews: ~amaas/data/sentiment/

带有情绪注释的标准情绪数据集
Stanford Sentiment Treebank: https://nlp.stanford.edu/sentiment/code.html

2015年2月美国航空公司推特数据,分为正面、负面和中性推特
Twitter US Airline Sentiment: https://www.kaggle.com/crowdflower/twitter-airline-sentiment

跨域(Amazon商品评论)情感数据集
~mdredze/datasets/sentiment/

5. 地理空间数据

OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据

Landsat8:整个地球表面的卫星视角图,每隔几周更新一次
https://landsat.usgs.gov/landsat-

NEXRAD:美国大气层的多普勒雷达扫描图
https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

6. 人工数据集

Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器
https://github.com/caglar/Arcade-Univers

以 Baby AI School 为灵感的数据集集合
~lisa/twiki/bin/view.cgi/Public/BabyAISchoo

Baby AI Shapes Dataset:区分 3 种简单形状
~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDataset

Baby AI Image And Question Dataset:一个问题 - 图像 - 答案数据集
~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDataset

Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集
~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML200

MnistVariations:在 MNIST 中引入受控变化
~lisa/twiki/bin/view.cgi/Public/MnistVariation

RectanglesData:区分宽矩形和垂直矩形
~lisa/twiki/bin/view.cgi/Public/RectanglesDat

ConvexNonConvex:区分凸形和非凸形状
~lisa/twiki/bin/view.cgi/Public/ConvexNonConve

BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控
~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

7. 人脸数据集

Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统

UMD Faces:有 8501 个主题的 367,920 个面孔的带注释数据集

CASIA WebFace:超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤

MS-Celeb-1M:100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果
https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world

Olivetti:一些人类的不同图像
~roweis/data.htm

Multi-Pie:The CMU Multi-PIE Face 数据库

Face-in-Action:
JACFEE:日本和白种人面部情绪表达的图像

FERET:面部识别技术数据库

mmifacedb:MMI 面部表情数据库

IndianFaceDatabase:~vidit/IndianFaceDatabase
耶鲁人脸数据库:

Mut1ny 头部 / 面部分割数据集:像素超过 16K 的面部 / 头部分割图

8. 自然语言处理数据集

自然语言处理是一个广泛的研究领域,以下包括用于不同自然语言处理任务(例如语音识别和聊天机器人)的广泛数据集。

来自Enron公司高级管理人员的邮件数据
Enron Dataset: https://www.cs.cmu.edu/~./enron/

包含来自亚马逊18年来的3500万条评论。数据包括产品和用户信息,评级以及明文评论。
Amazon Reviews: https://snap.stanford.edu/data/web-Amazon.html

Google图书中的单词数据集
Google Books Ngrams: https://aws.amazon.com/cn/datasets/google-books-ngrams/

从blogger.com收集的681,288个博客帖子集合。每个博客至少包含200个常用英语单词
Blogger Corpus: ~koppel/BlogCorpus.htm

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjywz.html