画像分類モデル(CNN)の進化の歴史:AIブームを牽引した名作たち
ディープラーニング(深層学習)が現在のAIブームを巻き起こしたきっかけは、間違いなく「画像認識」の分野における劇的な進化にあります。
G検定の試験対策としても、AIの歴史を理解する上でも、CNN(畳み込みニューラルネットワーク)の代表的なモデルの変遷を理解することは非常に重要です。
この記事では、2012年のブレイクスルーから最新のトレンドまで、歴史を変えた主要なモデルを時系列で、かつ体系的に解説します。
【この記事でわかること】
- AlexNetからViTまでの進化の流れ
- 各モデルが解決した課題と技術的な「キーワード」
- G検定で問われやすいポイント
1. AlexNet(2012年):第3次AIブームの幕開け
2012年に開催された画像認識コンペティション「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」において、2位に圧倒的な差をつけて優勝し、世界に衝撃を与えたモデルです。
それまでの機械学習では、人間が特徴量を設計していましたが、AlexNetは「データから特徴量そのものを学習する」というディープラーニングの威力を証明しました。
- 主な特徴:
- ReLU(Rectified Linear Unit)関数の採用(勾配消失問題の緩和)
- ドロップアウト(Dropout)の導入(過学習の抑制)
- GPUを使用した高速な学習
- ジェフリー・ヒントン教授らのチーム(SuperVision)によって開発された
- 8層構造(5層の畳み込み層+3層の全結合層)という、当時としては「深い」構造が特徴
2. VGG(2014年):シンプル・イズ・ベスト
2014年のILSVRCで2位となったモデルですが、そのシンプルで美しい構造から、現在でもベースライン(基準)としてよく利用されます。
- 主な特徴:
- 3×3の小さな畳み込みフィルタを重ねて使用
- 層を深くすること(16層や19層)で表現力を向上
3. GoogLeNet(2014年):横に広がる「Inception構造」
2014年のILSVRCでの優勝モデルです。VGGが「縦(深さ)」を追求したのに対し、GoogLeNetは「横(幅)」の広がりを持たせた複雑な構造が特徴です。
- 主な特徴:
- Inceptionモジュール:異なるサイズのフィルタ(1×1, 3×3, 5×5)を並列に適用し、出力を結合する構造。
- 1×1畳み込み(Pointwise Convolution):次元削減を行い、計算量を削減。
- Global Average Pooling (GAP):全結合層の代わりに平均プーリングを使用し、パラメータ数を大幅に削減。
4. ResNet(2015年):100層を超える「超」深層化を実現
2015年のILSVRC優勝モデル。それまでは層を深くしすぎると、学習がうまく進まない(勾配消失などが原因)という問題がありましたが、ResNetはこの壁を打ち破り、一気に152層まで到達しました。
- 主な特徴:
- スキップ結合(Skip Connection / Shortcut Connection):入力データを層を飛び越えて出力に加算する仕組み。
- 残差学習(Residual Learning):層が学習すべきなのは「入力と出力の差分(残差)」であるという考え方。
5. Wide ResNet(2016年):深さより「幅」
ResNetの派生モデルの一つです。ResNetは「深さ」で性能を上げましたが、学習に時間がかかるという欠点がありました。Wide ResNetは、層を浅くする代わりに各層のフィルタ数(幅)を増やすことで、ResNetと同等以上の性能と学習効率を実現しました。
6. DenseNet(2017年):すべての層を密に接続
ResNetのスキップ結合をさらに発展させたモデルです。前方のすべての層の出力を、後方の層の入力としてそのまま結合(Concatenate)して利用します。
- 主な特徴:
- Dense Block:層同士が密(Dense)に接続される構造。
- 特徴マップの再利用性が高く、勾配消失問題にさらに強い。
7. SENet(2017年):Attention機構の導入
2017年のILSVRC優勝モデルです。これまでの進化が「深さ」や「幅」の構造改革だったのに対し、SENetは「特徴マップの重要度(重み)」に着目しました。
- 主な特徴:
- Squeeze-and-Excitation (SE) ブロック:各チャンネルの重要度を学習し、有用な特徴を強調、不要な特徴を抑制する仕組み。
- Attention(注意)機構の一種とみなせます。
8. Vision Transformer(ViT):CNNを使わない新常識
2020年に登場し、画像認識の世界を塗り替えたモデルです。自然言語処理(NLP)で圧倒的な成果を上げていた「Transformer」を、そのまま画像認識に応用しました。
- 主な特徴:
- 画像をパッチ(断片)に分割し、単語のように並べて処理する。
- CNN(畳み込み)を一切使わず、Self-Attention(自己注意機構)のみで大域的な特徴を捉える。
G検定向けポイントまとめ
最後に、G検定に向けて各モデルの特徴を整理します。試験に出題されやすいキーワードに絞ってまとめています。瞬発的に回答できるようモデル名とキーワードを合わせて覚えておきましょう。
| モデル名 | 年 | キーワード(試験対策) | 特徴を一言で |
|---|---|---|---|
| AlexNet | 2012 | ReLU, Dropout | DLブームの火付け役 |
| VGG | 2014 | 3×3フィルタ, シンプル | 深さとシンプルさの追求 |
| GoogLeNet | 2014 | Inception, 1×1畳み込み, GAP | 横に広がる分岐構造 |
| ResNet | 2015 | スキップ結合, 残差学習 | 100層超えの超深層化 |
| DenseNet | 2017 | Dense Block, 結合 | 全層を密に接続 |
| SENet | 2017 | Squeeze-and-Excitation | 特徴マップごとの「重み付け」 |
| ViT | 2020~ | Patch, Self-Attention | 脱CNN・Transformerへの移行 |
