プーリング層(Pooling Layer)
解説:あえて「大雑把」に見る技術
プーリング層は、画像の解像度を下げて情報を圧縮する(ダウンサンプリング)処理を行う層です。簡単に言えば、「画像をモザイク画のように粗くする処理」です。
せっかくの高解像度データをなぜ粗くするのでしょうか? 主な目的は以下の2つです。
① 計算量の削減(ダイエット)
画像サイズを半分にすれば、画素数は4分の1になります。これによりパラメータ数や計算コストが劇的に減り、過学習もしにくくなります。
画像サイズを半分にすれば、画素数は4分の1になります。これによりパラメータ数や計算コストが劇的に減り、過学習もしにくくなります。
② 位置ズレへの許容(ここが重要!)
これがプーリングの真骨頂です。画像を大雑把に見ることで、「対象物が数ピクセル動いても、同じものとして認識できる」ようになります。
これを専門用語で「平行移動不変性(Translation Invariance)」と呼びます。
これがプーリングの真骨頂です。画像を大雑把に見ることで、「対象物が数ピクセル動いても、同じものとして認識できる」ようになります。
これを専門用語で「平行移動不変性(Translation Invariance)」と呼びます。
「猫の耳」でわかるMaxプーリングの仕組み
最も代表的な「Maxプーリング(最大値プーリング)」の例を見てみましょう。
例えば、2×2 の領域から「最大値」だけを取り出すルールだとします。
パターンA:耳が「左上」にある
↓ Maxをとる |
= | パターンB:耳が「右下」にズレた
↓ Maxをとる |
このように、入力データの中で位置がズレていても、プーリングを通せば「同じ『7』という特徴がある」という結果(出力)は変わりません。
これにより、AIは「厳密な位置」にこだわらず、「だいたいこの辺に耳があれば猫だ」という柔軟な判断ができるようになります。

主なプーリングの種類
| 種類 | 処理内容 | 特徴 |
|---|---|---|
| Max Pooling (最大値プーリング) |
領域内の最大値を取り出す。 | 最も特徴的な部分(エッジなど)を強調する。 画像認識ではこれが主流。 |
| Average Pooling (平均値プーリング) |
領域内の平均値を取り出す。 | 全体を滑らかにする効果がある。 一部のモデル(Global Average Poolingなど)で使われる。 |
G検定対策
出題ポイント
- 目的:画像サイズの圧縮(ダウンサンプリング)と、「位置ズレに対する頑健性(不変性)」の獲得。
- パラメータ:プーリング層には「学習するパラメータ(重み)」が存在しない。ただ決まった計算(最大値をとる等)をするだけである。
- 計算式:ストライド(スライド幅)やカーネルサイズによる出力サイズの変化を問われることがある。
ひっかけ対策
- × プーリング層で重みの学習を行う
(解説)学習するのは畳み込み層や全結合層です。プーリング層はただの「縮小作業員」なので学習機能はありません。 - × 位置情報を正確に保持する
(解説)あえて位置情報を「捨てる(ぼかす)」ことで、ズレに強くしています。
