MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效
CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查
~kriz/cifar.htm
Caltech 101:101 类物体的图片
Caltech 256:256 类物体的图片
STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10
~acoates/stl10
The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST
NORB:玩具摆件在各种照明和姿势下的双目图像
~ylclab/data/norb-v1.0
Pascal VOC:通用图像分割 / 分类——对于构建真实世界图像注释不是非常有用,但对基线很有用
Labelme:带注释图像的大型数据集
ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构
LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency * prediction)等),有关联竞赛。(associated competition)
地址:
MS COCO:通用图像理解 / 说明,有关联竞赛
COIL 20:不同物体在 360 度旋转中以每个角度成像
地址:
COIL100:不同物体在 360 度旋转中以每个角度成像
Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别
https://research.googleblog.com/2016/09/introducing-open-images-dataset.htm
情感分析模型需要庞大的专业数据集才能有效学习,以下所列数据集提供了用于情感分析的一些数据。
亚马逊商品评价数据集
Multidomain sentiment analysis dataset: ~mdredze/datasets/sentiment/
二元情感分类数据集,包含25000条电影评论
IMDB Reviews: ~amaas/data/sentiment/
带有情绪注释的标准情绪数据集
Stanford Sentiment Treebank: https://nlp.stanford.edu/sentiment/code.html
2015年2月美国航空公司推特数据,分为正面、负面和中性推特
Twitter US Airline Sentiment: https://www.kaggle.com/crowdflower/twitter-airline-sentiment
跨域(Amazon商品评论)情感数据集
~mdredze/datasets/sentiment/
OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据
Landsat8:整个地球表面的卫星视角图,每隔几周更新一次
https://landsat.usgs.gov/landsat-
NEXRAD:美国大气层的多普勒雷达扫描图
https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器
https://github.com/caglar/Arcade-Univers
以 Baby AI School 为灵感的数据集集合
~lisa/twiki/bin/view.cgi/Public/BabyAISchoo
Baby AI Shapes Dataset:区分 3 种简单形状
~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDataset
Baby AI Image And Question Dataset:一个问题 - 图像 - 答案数据集
~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDataset
Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集
~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML200
MnistVariations:在 MNIST 中引入受控变化
~lisa/twiki/bin/view.cgi/Public/MnistVariation
RectanglesData:区分宽矩形和垂直矩形
~lisa/twiki/bin/view.cgi/Public/RectanglesDat
ConvexNonConvex:区分凸形和非凸形状
~lisa/twiki/bin/view.cgi/Public/ConvexNonConve
BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控
~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation
Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统
UMD Faces:有 8501 个主题的 367,920 个面孔的带注释数据集
CASIA WebFace:超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤
MS-Celeb-1M:100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果
https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world
Olivetti:一些人类的不同图像
~roweis/data.htm
Multi-Pie:The CMU Multi-PIE Face 数据库
Face-in-Action:
JACFEE:日本和白种人面部情绪表达的图像
FERET:面部识别技术数据库
mmifacedb:MMI 面部表情数据库
IndianFaceDatabase:~vidit/IndianFaceDatabase
耶鲁人脸数据库:
Mut1ny 头部 / 面部分割数据集:像素超过 16K 的面部 / 头部分割图
自然语言处理是一个广泛的研究领域,以下包括用于不同自然语言处理任务(例如语音识别和聊天机器人)的广泛数据集。
来自Enron公司高级管理人员的邮件数据
Enron Dataset: https://www.cs.cmu.edu/~./enron/
包含来自亚马逊18年来的3500万条评论。数据包括产品和用户信息,评级以及明文评论。
Amazon Reviews: https://snap.stanford.edu/data/web-Amazon.html
Google图书中的单词数据集
Google Books Ngrams: https://aws.amazon.com/cn/datasets/google-books-ngrams/
从blogger.com收集的681,288个博客帖子集合。每个博客至少包含200个常用英语单词
Blogger Corpus: ~koppel/BlogCorpus.htm