Web教科書

プーリング層

プーリング層(Pooling Layer)

解説:あえて「大雑把」に見る技術

プーリング層は、画像の解像度を下げて情報を圧縮する(ダウンサンプリング)処理を行う層です。簡単に言えば、「画像をモザイク画のように粗くする処理」です。

せっかくの高解像度データをなぜ粗くするのでしょうか? 主な目的は以下の2つです。

① 計算量の削減(ダイエット)
画像サイズを半分にすれば、画素数は4分の1になります。これによりパラメータ数や計算コストが劇的に減り、過学習もしにくくなります。
② 位置ズレへの許容(ここが重要!)
これがプーリングの真骨頂です。画像を大雑把に見ることで、「対象物が数ピクセル動いても、同じものとして認識できる」ようになります。
これを専門用語で「平行移動不変性(Translation Invariance)」と呼びます。

「猫の耳」でわかるMaxプーリングの仕組み

最も代表的な「Maxプーリング(最大値プーリング)」の例を見てみましょう。
例えば、2×2 の領域から「最大値」だけを取り出すルールだとします。

パターンA:耳が「左上」にある

7 1
2 0

↓ Maxをとる
出力:7

パターンB:耳が「右下」にズレた

1 2
0 7

↓ Maxをとる
出力:7

このように、入力データの中で位置がズレていても、プーリングを通せば「同じ『7』という特徴がある」という結果(出力)は変わりません。
これにより、AIは「厳密な位置」にこだわらず、「だいたいこの辺に耳があれば猫だ」という柔軟な判断ができるようになります。

主なプーリングの種類

種類 処理内容 特徴
Max Pooling
(最大値プーリング)
領域内の最大値を取り出す。 最も特徴的な部分(エッジなど)を強調する。
画像認識ではこれが主流。
Average Pooling
(平均値プーリング)
領域内の平均値を取り出す。 全体を滑らかにする効果がある。
一部のモデル(Global Average Poolingなど)で使われる。

G検定対策

出題ポイント

  • 目的:画像サイズの圧縮(ダウンサンプリング)と、「位置ズレに対する頑健性(不変性)」の獲得。
  • パラメータ:プーリング層には「学習するパラメータ(重み)」が存在しない。ただ決まった計算(最大値をとる等)をするだけである。
  • 計算式:ストライド(スライド幅)やカーネルサイズによる出力サイズの変化を問われることがある。

ひっかけ対策

  • × プーリング層で重みの学習を行う
    (解説)学習するのは畳み込み層や全結合層です。プーリング層はただの「縮小作業員」なので学習機能はありません。
  • × 位置情報を正確に保持する
    (解説)あえて位置情報を「捨てる(ぼかす)」ことで、ズレに強くしています。

「プーリング層」の関連キーワード一覧

タイトルとURLをコピーしました