Web教科書

画像分類モデル(CNN)の進化の歴史

画像分類モデル(CNN)の進化の歴史:AIブームを牽引した名作たち

ディープラーニング(深層学習)が現在のAIブームを巻き起こしたきっかけは、間違いなく「画像認識」の分野における劇的な進化にあります。
G検定の試験対策としても、AIの歴史を理解する上でも、CNN(畳み込みニューラルネットワーク)の代表的なモデルの変遷を理解することは非常に重要です。

この記事では、2012年のブレイクスルーから最新のトレンドまで、歴史を変えた主要なモデルを時系列で、かつ体系的に解説します。

【この記事でわかること】

  • AlexNetからViTまでの進化の流れ
  • 各モデルが解決した課題と技術的な「キーワード」
  • G検定で問われやすいポイント

1. AlexNet(2012年):第3次AIブームの幕開け

2012年に開催された画像認識コンペティション「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」において、2位に圧倒的な差をつけて優勝し、世界に衝撃を与えたモデルです。

それまでの機械学習では、人間が特徴量を設計していましたが、AlexNetは「データから特徴量そのものを学習する」というディープラーニングの威力を証明しました。

  • 主な特徴:
    • ReLU(Rectified Linear Unit)関数の採用(勾配消失問題の緩和)
    • ドロップアウト(Dropout)の導入(過学習の抑制)
    • GPUを使用した高速な学習
    • ジェフリー・ヒントン教授らのチーム(SuperVision)によって開発された
    • 8層構造(5層の畳み込み層+3層の全結合層)という、当時としては「深い」構造が特徴

2. VGG(2014年):シンプル・イズ・ベスト

2014年のILSVRCで2位となったモデルですが、そのシンプルで美しい構造から、現在でもベースライン(基準)としてよく利用されます。

  • 主な特徴:
    • 3×3の小さな畳み込みフィルタを重ねて使用
    • 層を深くすること(16層や19層)で表現力を向上

3. GoogLeNet(2014年):横に広がる「Inception構造」

2014年のILSVRCでの優勝モデルです。VGGが「縦(深さ)」を追求したのに対し、GoogLeNetは「横(幅)」の広がりを持たせた複雑な構造が特徴です。

  • 主な特徴:
    • Inceptionモジュール:異なるサイズのフィルタ(1×1, 3×3, 5×5)を並列に適用し、出力を結合する構造。
    • 1×1畳み込み(Pointwise Convolution):次元削減を行い、計算量を削減。
    • Global Average Pooling (GAP):全結合層の代わりに平均プーリングを使用し、パラメータ数を大幅に削減。

4. ResNet(2015年):100層を超える「超」深層化を実現

2015年のILSVRC優勝モデル。それまでは層を深くしすぎると、学習がうまく進まない(勾配消失などが原因)という問題がありましたが、ResNetはこの壁を打ち破り、一気に152層まで到達しました。

5. Wide ResNet(2016年):深さより「幅」

ResNetの派生モデルの一つです。ResNetは「深さ」で性能を上げましたが、学習に時間がかかるという欠点がありました。Wide ResNetは、層を浅くする代わりに各層のフィルタ数(幅)を増やすことで、ResNetと同等以上の性能と学習効率を実現しました。

6. DenseNet(2017年):すべての層を密に接続

ResNetのスキップ結合をさらに発展させたモデルです。前方のすべての層の出力を、後方の層の入力としてそのまま結合(Concatenate)して利用します。

  • 主な特徴:
    • Dense Block:層同士が密(Dense)に接続される構造。
    • 特徴マップの再利用性が高く、勾配消失問題にさらに強い。

7. SENet(2017年):Attention機構の導入

2017年のILSVRC優勝モデルです。これまでの進化が「深さ」や「幅」の構造改革だったのに対し、SENetは「特徴マップの重要度(重み)」に着目しました。

  • 主な特徴:
    • Squeeze-and-Excitation (SE) ブロック:各チャンネルの重要度を学習し、有用な特徴を強調、不要な特徴を抑制する仕組み。
    • Attention(注意)機構の一種とみなせます。

8. Vision Transformer(ViT):CNNを使わない新常識

2020年に登場し、画像認識の世界を塗り替えたモデルです。自然言語処理(NLP)で圧倒的な成果を上げていた「Transformer」を、そのまま画像認識に応用しました。

  • 主な特徴:
    • 画像をパッチ(断片)に分割し、単語のように並べて処理する。
    • CNN(畳み込み)を一切使わず、Self-Attention(自己注意機構)のみで大域的な特徴を捉える。

G検定向けポイントまとめ

最後に、G検定に向けて各モデルの特徴を整理します。試験に出題されやすいキーワードに絞ってまとめています。瞬発的に回答できるようモデル名とキーワードを合わせて覚えておきましょう。

モデル名 キーワード(試験対策) 特徴を一言で
AlexNet 2012 ReLU, Dropout DLブームの火付け役
VGG 2014 3×3フィルタ, シンプル 深さとシンプルさの追求
GoogLeNet 2014 Inception, 1×1畳み込み, GAP 横に広がる分岐構造
ResNet 2015 スキップ結合, 残差学習 100層超えの超深層化
DenseNet 2017 Dense Block, 結合 全層を密に接続
SENet 2017 Squeeze-and-Excitation 特徴マップごとの「重み付け」
ViT 2020~ Patch, Self-Attention 脱CNN・Transformerへの移行
タイトルとURLをコピーしました