一份超级全面的机器学习公共数据集

在机器学习中,设计的算法需要通过数据集来验证。此外,对于标注的数据,在一定程度上驱动着一个个新的算法研究出来,逼近人的识别能力。

本文是用于机器学习的开放数据集的清单。覆盖范围包括财经,计算机视觉,自然语言处理,语音文本处理,情感分析,自动驾驶,人脸识别等领域。

1. 数据集查找器

学习机器学习的最好方法是在不同的项目中练习。你可以使用这些主要的数据集查找器在线搜索和下载免费的数据集。

一个数据科学站点,其中包含各种外部贡献的有趣数据集。 您可以在其主列表中找到各种小众数据集,从拉面等级到篮球数据,甚至到西雅图宠物许可证。
Kaggle: https://www.kaggle.com/

网络上最古老的数据集来源之一,也是寻找有趣的数据集的绝佳起点。 尽管数据集是用户提供的,因此具有不同的清洁度,但是绝大多数是清洁的。 您可以直接从UCI机器学习存储库下载数据,而无需注册。
UCI Machine Learning Repository:

2. 财经类数据集

事实证明,机器学习对于金融行业来说是千载难逢的机会,记录了数十年的量化金融数据形成了一个非常大的数据集,因此它非常适合于机器学习。实际上,机器学习现在已经开始慢慢改变金融和银行投资业务,包括股市预测,投资分析与决策等。在经济学中,机器学习可以用来建立经济学模型和预测客户行为。

一个有助于建立预测经济指标或股票价格模型的数据集
https://www.quandl.com/

涵盖全球人口统计数据和大量经济与发展指标的数据集。
https://data.worldbank.org/

国际货币基金组织发布有关国际金融,债务利率,外汇储备,商品价格和投资的数据。
https://www.imf.org/en/Data

来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
https://markets.ft.com/data/

检查和分析有关互联网搜索活动和全球趋势新闻的数据。
https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0

查找美国宏观经济数据的良好来源
https://www.aeaweb.org/resources/data/us-macro-regional

深证创业板日线数据,1999.12.09 至2016.06.08,前复权,510支股票

深证A股日线数据,1999.12.09至 2016.06.08,前复权,1766支股票

上证A股日线数据,1999.12.09至 2016.06.08,前复权,1095支股票

深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票

沪深股票除权除息、配股增发全量数据,截止 2016.12.31

房地产公司 Zillow 公开美国房地产历史数据

美国劳工部统计局官方发布数据

Forex平台外汇交易历史数据

Airbnb 开放的民宿信息和住客评论数据

3. 用于计算机视觉的图像数据集

图像数据集可用于训练各种计算机视觉应用,例如医学成像技术,自动驾驶汽车和面部识别。

大量带注释的图片

用于新算法的实际图像数据集。根据WordNet层次结构进行组织,其中层次结构的每个节点由成千上万的图像描绘。

多辅助场景理解(房间布局估计,显着性预测等)

一般图像理解和字幕。

以360度旋转的每个角度拍摄100个不同的物体。
COIL100:

非常详细的视觉知识库,包含约100K幅图像的字幕
Visual Genome:

共有900万个图片的url,这些图片在Creative Commons下被标注了超过6000个类别的标签
Google’s Open Images: https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

13000张有标签的人脸图像,用于开发涉及面部识别的应用程序
Labelled Faces in the Wild:

包含20580张图片和120种不同的狗品种。
Stanford Dogs Dataset:

包含67个室内类别,共15620个图像
Indoor Scene Recognition:

Fashion-MNIST风格服饰图像数据集
https://github.com/zalandoresearch/fashion-mnist

大型(50万)LOGO标志数据集
https://data.vision.ee.ethz.ch/cvl/lld/

YouTube MV视频数据集添加链接描述
https://github.com/keunwoochoi/YouTube-music-video-5M

计算机视觉合成数据集/工具大列表
https://github.com/unrealcv/synthetic-computer-vision

Pixiv(着色)图片数据集
https://github.com/jerryli27/pixiv_dataset

简笔画涂鸦数据集
https://github.com/hardmaru/sketch-rnn-datasets

大规模日语图片描述数据集
https://github.com/STAIR-Lab-CIT/STAIR-captions

PyTorch实现的VOC2012数据集Pixel-wise目标分割
https://github.com/bodokaiser/piwise

Cityscapes街景语义分割数据集
https://github.com/mcordts/cityscapesScripts

COCO像素级标注数据集
https://github.com/nightrome/cocostuff

13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。
Labelled Faces in the Wild:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjywz.html