画像分類モデル（CNN）の進化の歴史 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

画像分類モデル（CNN）の進化の歴史：AIブームを牽引した名作たち

ディープラーニング（深層学習）が現在のAIブームを巻き起こしたきっかけは、間違いなく「画像認識」の分野における劇的な進化にあります。
G検定の試験対策としても、AIの歴史を理解する上でも、CNN（畳み込みニューラルネットワーク）の代表的なモデルの変遷を理解することは非常に重要です。

この記事では、2012年のブレイクスルーから最新のトレンドまで、歴史を変えた主要なモデルを時系列で、かつ体系的に解説します。

【この記事でわかること】

2012年に開催された画像認識コンペティション「ILSVRC（ImageNet Large Scale Visual Recognition Challenge）」において、2位に圧倒的な差をつけて優勝し、世界に衝撃を与えたモデルです。

それまでの機械学習では、人間が特徴量を設計していましたが、AlexNetは「データから特徴量そのものを学習する」というディープラーニングの威力を証明しました。

主な特徴：
- ReLU（Rectified Linear Unit）関数の採用（勾配消失問題の緩和）
- ドロップアウト（Dropout）の導入（過学習の抑制）
- GPUを使用した高速な学習
- ジェフリー・ヒントン教授らのチーム（SuperVision）によって開発された
- 8層構造（5層の畳み込み層＋3層の全結合層）という、当時としては「深い」構造が特徴

2014年のILSVRCで2位となったモデルですが、そのシンプルで美しい構造から、現在でもベースライン（基準）としてよく利用されます。

2014年のILSVRCでの優勝モデルです。VGGが「縦（深さ）」を追求したのに対し、GoogLeNetは「横（幅）」の広がりを持たせた複雑な構造が特徴です。

主な特徴：
- Inceptionモジュール：異なるサイズのフィルタ（1×1, 3×3, 5×5）を並列に適用し、出力を結合する構造。
- 1×1畳み込み（Pointwise Convolution）：次元削減を行い、計算量を削減。
- Global Average Pooling (GAP)：全結合層の代わりに平均プーリングを使用し、パラメータ数を大幅に削減。

2015年のILSVRC優勝モデル。それまでは層を深くしすぎると、学習がうまく進まない（勾配消失などが原因）という問題がありましたが、ResNetはこの壁を打ち破り、一気に152層まで到達しました。

主な特徴：
- スキップ結合（Skip Connection / Shortcut Connection）：入力データを層を飛び越えて出力に加算する仕組み。
- 残差学習（Residual Learning）：層が学習すべきなのは「入力と出力の差分（残差）」であるという考え方。

ResNetの派生モデルの一つです。ResNetは「深さ」で性能を上げましたが、学習に時間がかかるという欠点がありました。Wide ResNetは、層を浅くする代わりに各層のフィルタ数（幅）を増やすことで、ResNetと同等以上の性能と学習効率を実現しました。

ResNetのスキップ結合をさらに発展させたモデルです。前方のすべての層の出力を、後方の層の入力としてそのまま結合（Concatenate）して利用します。

2017年のILSVRC優勝モデルです。これまでの進化が「深さ」や「幅」の構造改革だったのに対し、SENetは「特徴マップの重要度（重み）」に着目しました。

主な特徴：
- Squeeze-and-Excitation (SE) ブロック：各チャンネルの重要度を学習し、有用な特徴を強調、不要な特徴を抑制する仕組み。
- Attention（注意）機構の一種とみなせます。

2020年に登場し、画像認識の世界を塗り替えたモデルです。自然言語処理（NLP）で圧倒的な成果を上げていた「Transformer」を、そのまま画像認識に応用しました。

主な特徴：
- 画像をパッチ（断片）に分割し、単語のように並べて処理する。
- CNN（畳み込み）を一切使わず、Self-Attention（自己注意機構）のみで大域的な特徴を捉える。

最後に、G検定に向けて各モデルの特徴を整理します。試験に出題されやすいキーワードに絞ってまとめています。瞬発的に回答できるようモデル名とキーワードを合わせて覚えておきましょう。

モデル名	年	キーワード（試験対策）	特徴を一言で
AlexNet	2012	ReLU, Dropout	DLブームの火付け役
VGG	2014	3×3フィルタ, シンプル	深さとシンプルさの追求
GoogLeNet	2014	Inception, 1×1畳み込み, GAP	横に広がる分岐構造
ResNet	2015	スキップ結合, 残差学習	100層超えの超深層化
DenseNet	2017	Dense Block, 結合	全層を密に接続
SENet	2017	Squeeze-and-Excitation	特徴マップごとの「重み付け」
ViT	2020~	Patch, Self-Attention	脱CNN・Transformerへの移行