数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的 人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名 称,如 MNIST、CIFAR 10 以及 Imagenet 等。

图像分类领域

1)MNIST
经典的小型(28x28 像素)灰度手写数字数据集,开发于20世纪90年代,主要用于测试当时最复杂的模型;到了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的PNG格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输 入通道,只需在通道轴中选取单个切片即可。
下载地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2)CIFAR10
10 个类别,多达 60000 张的 32x32 像素彩色图像(50000 张训练图像和 10000 张测试图像),平均每种类别 拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用。
下载地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3)CIFAR100
与 CIFAR-10 类似,区别在于 CIFAR-100 拥有 100 种类别,每个类别包含 600 张图像(500 张训练图像和 100 张测试图像),然后这 100 个类别又被划分为 20 个超类。因此,数据集里的每张图像自带一个「精细」标签 (所属的类)和一个「粗略」标签(所属的超类)。

4)Caltech 101
包含 101 种物品类别的图像数据集,平均每个类别拥有 40—800 张图像,其中很大一部分类别的图像数量固为 50 张左右。每张图像的大小约为 300 x 200 像素。本数据集也可以用于目标检测定位。
下载地址:https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

自然语言处理领域

1)IMDb Large Movie Review Dataset
用于情感二元分类的数据集,其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论,这些电 影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。
下载地址:https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2)Wikitext-103
超过 1 亿个语句的数据合集,全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模,当中 包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。
下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3)Wikitext-2
Wikitext-103 的子集,主要用于测试小型数据集的语言模型训练效果。
下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4)AG News496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。 每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。
下载地址:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

目标检测定位

1)Camvid: Motion-based Segmentation and Recognition Dataset
700 张包含像素级别语义分割的图像分割数据集,每张图像都经过第二个人的检查和确认来确保数据的准确性。
下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz

2)PASCAL Visual Object Classes (VOC)
用于类识别的标准图像数据集——这里同时提供了 2007 与 2012 版本。2012 年的版本拥有 20 个类别。训练数 据的 11,530 张图像中包含了 27,450 个 ROI 注释对象和 6,929 个目标分割数据。
下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz