一份超级全面的机器学习公共数据集 (4)

Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版

10. 语音和音乐数据集

2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取
https://catalog.ldc.upenn.edu/LDC2002T4

LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节

VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例

TIMIT:英语语音识别数据集
https://catalog.ldc.upenn.edu/LDC93S

CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成

TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录

Piano-midi.de: 古典钢琴

Nottingham : 超过 1000 首民

MuseData: 古典音乐评分的电子图书

JSB Chorales: 四部协奏

11. 自动驾驶数据集

自动驾驶汽车需要使用大量高质量的数据集进行训练,以便他们可以准确地感知其环境和周围物体。

当前自动驾驶+AI的最大数据集。 包含超过100,000个视频,这些视频在一天中的不同时间和天气情况下提供1,100个小时以上的驾驶体验。 带注释的图像来自纽约和旧金山地区。
Berkeley DeepDrive BDD100k: https://bdd-data.berkeley.edu/

大型图像数据集,定义了26种不同的语义项,例如汽车,自行车,行人,建筑物,路灯等。
Baidu Apolloscapes:

超过7个小时的高速公路行驶。详细信息包括汽车的速度,加速度,转向角和GPS坐标。
Comma.ai: https://archive.org/details/comma-dataset

在一年的时间内,通过英国牛津的同一条路线的100多次重复。数据集捕获天气,交通和行人的不同组合,以及诸如建筑和道路工程等长期变化。
Oxford’s Robotic Car: https://robotcar-dataset.robots.ox.ac.uk/

记录了50个不同城市中的城市街道场景的大型数据集。
Cityscape Dataset: https://www.cityscapes-dataset.com/

该数据集对于自动驾驶车辆的感知和导航很有用。数据集在发达国家发现的道路上严重倾斜。
CSSAD Dataset:

来自比利时佛兰德地区数千个物理上不同的交通标志的10000多个交通标志注释。
KUL Belgium Traffic Sign Dataset: ~timofter/traffic_signs/

在AgeLab收集的1,000多个小时的多传感器驾驶数据集的样本。
MIT AGE Lab: https://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:

使用Python自动驾驶侠盗猎车手
https://github.com/sentdex/pygta5

12. 用于机器学习的政府公共数据集

人口统计数据是重大经济决策的基础,是改善政府和社会的有力工具。 使用公共政府数据进行训练的机器学习模型可以帮助决策者识别趋势,并为与人口减少或增长,老龄化和移民有关的问题做好准备。

该站点可以从多个美国政府机构下载数据。数据范围从政府预算到学校成绩。 请注意:许多数据需要进一步研究。
Data.gov: https://www.data.gov/

包含有关当地食物选择如何影响美国饮食的数据。
Food Environment Atlas: https://catalog.data.gov/dataset/food-environment-atlas-f4a22

美国学校系统财务状况的调查。
School system finances: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

Data on chronic disease indicators in areas across the US.
Chronic disease data: https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国和世界各地有关教育机构和教育人口统计数据。
The US National Center for Education Statistics: https://nces.ed.gov/

英国最大的社会,经济和人口数据收集。
The UK Data Service: https://www.ukdataservice.ac.uk/

美国公共数据的全面可视化。
Data USA: https://datausa.io/

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjywz.html