オープンデータセット - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

オープンデータセット (Open Datasets)

オープンデータセットは、研究機関、企業、政府などが一般に公開し、誰でも（あるいは特定の条件下で）利用できるようにしたデータの総称です。

高性能なAIを作るには「大量かつ良質なデータ」が不可欠ですが、自前で何万枚もの画像やテキストを集めるのは困難です。
そこで、世界中の研究者が共通して使えるデータセットが公開されており、初期学習や「性能評価のベンチマーク（ものさし）」として広く利用されています。

ベンチマークとしての役割

新しいAIモデルを作ったとき、「精度が出ました！」と言っても、テスト問題が簡単すぎたら意味がありません。
「ImageNetという世界共通の超難問テストで、正解率90%を出しました」と言えば、その凄さが客観的に伝わります。
このように、技術の進歩を測る共通の基準としても機能しています。

以下の3つは、画像認識の歴史を作ってきたデータセットとして必ず覚えましょう。

名称	中身	特徴
MNIST (エムニスト)	手書き数字（0〜9） 28×28ピクセルの白黒画像	AIプログラミングの「Hello World」。初心者が最初に触るデータセット。
CIFAR-10 (サイファーテン)	一般物体（飛行機、犬など） 10クラスのカラー画像	解像度が粗い（32×32）ため扱いやすく、アルゴリズムの実験によく使われる。
ImageNet (イメージネット)	1400万枚以上の巨大画像群 2万以上のクラス（種類）	ディープラーニングブームの火付け役。「ILSVRC」というコンペで使われたことで有名。

「オープンデータだから、商用利用も無制限に可能である」→ × 誤り。
これが最大のひっかけです。「研究用途なら無料だが、商用利用は不可」「クレジット表記が必要（CCライセンス）」など、データセットごとに利用規約（ライセンス）が厳格に定められています。必ず確認が必要です。
「個人情報が含まれていることはない」→ × 誤り。
顔写真のデータセットなどで、プライバシーや肖像権の問題が指摘され、公開停止になるケースもあります（例：CelebAなど）。使用者の倫理観も問われます。