しんさんのブログ

科学や技術のこと読書のことなど

深層学習でよく使われる学習用データセットまとめ

せっかくまとめましたが、arXivTimesに素晴らしいまとめがありますのでそれで十分ですね。
github.com

商用利用可能な6種類の最大4Kサイズの人物の肌テクスチャが無料配布されています

商用利用可能な6種類の最大4Kサイズの人物の肌テクスチャが無料配布されています • 3DCG最新情報サイト MODELING HAPPY

MNIST:

手書き文字認識学習用データ
28pixel x 28pixel x 1channel
60000枚:training用
10000枚:test用
クラス: 10個の数字

機械学習におけるHello World的なデータ
ちなみに、MNISTとはMixed National Institute of Standard Technologyの省略形で、日本語に訳せば"国立標準技術研究所"でしょうか。
日本では旧通産省工業技術院、今の産業技術研究所に相当するアメリカの研究機関です。

CIFAR-10:

一般物体認識のベンチマークとしてよく使われている写真データ
32pixel x 32pixel x 3channel
50000枚:training用
10000枚:test用

画像は10種類にラベル付けされている
クラス:airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck

AlexNet(SuperVision)のAlex Krizhevskyさんが整備
(AlexさんはILSVRC2012で優勝)
以下のサイトに詳しく解説されています
aidiary.hatenablog.com

CIFAR-100:
CIFAR-10の100種類のクラス分け版
qiita.com

Microsoft COCO ( MS COCO ):

画像と、画像の認識、セグメンテーション、画像を説明する短いキャプションがセットになったデータ
以下の解説を参照のこと
qiita.com

Imagenet:

ダウンロードできるのは学術関係者に限定される
ImageNetとはスタンフォード大学がインターネット上から画像を集め分類したデータセット。一般画像認識用に用いられる。ImageNetを利用して画像検出・識別精度を競うThe ImageNet Large Scale Visual Recognition Challenge(ILSVRC)などコンテストも開かれる
現在、1400万枚以上のデータが集まり、2万クラス以上あるらしい
ネット上の画像を集めてきているので結構リンク切れがあったりするらしい。

GoogleのOpen Image Dataset v4

Googleが用意した1,540万のバウンディングボックス含む190万画像600カテゴリのデータセット
Open Images V7
ai.googleblog.com
ダウンロードは以下のサイトから
github.com

Caltech101

101個にカテゴリー分類されたデータ.
画像の品質がいい。
http://www.vision.caltech.edu/Image_Datasets/Caltech101/

The PASCAL Visual Object Classes Homepage

Yoloの学習済みモデルが公開されている.
http://host.robots.ox.ac.uk/pascal/VOC/

YFCC100M

flickerから収集した画像、動画データ.
http://yfcc100m.appspot.com/?

OpenImageDataset v4

物体検出用のデータ。オブジェクトの位置・サイズ、名前がつけられている。
ライセンス:The annotations are licensed by Google Inc. under CC BY 4.0 license. The images are listed as having a CC BY 2.0 license.
https://storage.googleapis.com/openimages/web/index.html

顔画像のデータセット

約13000枚の顔画像で、人の名前がフルネームでつけられている。
人は5000人以上、1680人は2枚以上の画像あり。
人種、表情、顔の向き、撮影の状態はランダムで、多様性あり。
http://vis-www.cs.umass.edu/lfw/

Celebの顔写真のデータセット

20万枚の画像
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

102種類の花の画像データセット

データサイズは8189枚
Visual Geometry Group - University of Oxford

              • -

他のデータセットもKerasのドキュメントで解説されています
https://keras.io/ja/datasets/