Web教科書

物体検出モデルの進化と歴史

物体検出モデルの進化を極める:「精度」と「速度」の戦いの歴史

「画像の中に何が(分類)、どこにあるか(位置特定)」を同時に行う技術が物体検出(Object Detection)です。
この分野の歴史は、いかにして「高い精度」を維持したまま、実用的な「処理速度」を実現するかという戦いの歴史でもあります。

G検定では、この「2段階型(精度重視)」から「1段階型(速度重視)」へのパラダイムシフトと、それぞれの代表的なモデルの仕組みが頻出ポイントとなります。

【この記事でわかること】

  • R-CNN系(2段階型)の進化と高速化の工夫
  • YOLO・SSD(1段階型)が登場した背景と仕組み
  • 小物体検出を可能にしたFPNの役割
  • G検定で問われる「キーワード」と「モデルの分類」

1. Fast R-CNN:R-CNNの弱点を克服(2段階型)

物体検出の先駆けである「R-CNN」は画期的でしたが、処理が非常に遅い(1枚に数十秒)という課題がありました。これを劇的に高速化したのがFast R-CNNです。

最大の特徴は、CNNによる特徴抽出を「画像全体に対して1回だけ」行う点です。

  • 主な特徴:
    • RoI Pooling(Region of Interest Pooling):CNNで抽出した特徴マップから、候補領域(RoI)に該当する部分だけを切り出して固定長に変換する技術。
    • マルチタスク損失:分類(クラス予測)と回帰(位置ズレの修正)を1つのネットワークで同時に学習。
    • R-CNNに比べて学習・推論ともに大幅に高速化したが、領域提案(どこに物体がありそうか)の処理はまだ外部のアルゴリズム(Selective Search)に依存していた。

2. Faster R-CNN:完全なエンドツーエンド学習へ(2段階型)

Fast R-CNNでボトルネックとなっていた「領域提案」のプロセスまでもニューラルネットワーク(CNN)の中に組み込んだモデルです。これにより、入力から出力までを一貫して学習できる「End-to-End(エンドツーエンド)」を実現しました。

  • 主な特徴:
    • RPN(Region Proposal Network):物体がありそうな領域(候補)を自動で提案する専用のネットワークを導入。
    • アンカーボックス(Anchor Box):様々なサイズやアスペクト比(縦横比)の枠をあらかじめ用意しておき、効率的に探索する仕組み。
    • 2段階型(Two-stage)検出器の完成形として、現在でも高精度モデルのベースラインとなっている。

3. SSD(Single Shot MultiBox Detector):精度と速度の両立(1段階型)

Faster R-CNNは高精度ですが、リアルタイム処理にはまだ速度が足りませんでした。そこで登場したのが、領域提案と分類を同時に行う「1段階型(One-stage)」のモデルです。


SSDは、処理速度を保ちつつ、YOLO(後述)の弱点だった精度の低さを克服しました。

  • 主な特徴:
    • マルチスケール特徴マップ:CNNの異なる深さ(解像度)の層から特徴を取り出し、大きな物体も小さな物体も検出できるようにした。
    • デフォルトボックス(Default Box):Faster R-CNNのアンカーボックスと同様の仕組みを採用し、様々な形状の物体に対応。
    • 「Single Shot」の名の通り、1回の処理ですべてを完了させるため高速。

4. YOLO(You Only Look Once):圧倒的なリアルタイム性(1段階型)

「画像を見るのは1回だけ(You Only Look Once)」という名の通り、人間がパッと見て瞬時に状況を把握するように、圧倒的な速度を実現したモデルです。
物体検出を「分類問題」ではなく、座標を予測する回帰問題として再定義した点が革新的でした。

  • 主な特徴:
    • グリッド分割:画像をグリッド(格子)状に分割し、各グリッドごとに「バウンディングボックス」と「クラス確率」を直接予測する。
    • 背景の誤検出(False Positive)が少ない。
    • 初期のYOLO(v1)は、グリッド内に複数の物体がある場合や、小さな物体の検出が苦手だった(後にYOLO v2, v3…と進化し改善)。

5. FPN(Feature Pyramid Network):小さな物体を見逃さない(拡張構造)

これは独立した検出モデルではなく、上記のモデル(Faster R-CNNやSSDなど)に組み込んで性能を底上げする「ネットワーク構造」です。
ディープラーニングは層が深くなるほど「意味」は理解しますが、「位置情報」が曖昧になり、小さな物体が見えなくなる問題がありました。

  • 主な特徴:
    • 特徴ピラミッド:深い層(強い意味情報)と浅い層(正確な位置情報)を結合して利用する構造。
    • 大小さまざまなサイズの物体を、高い精度で検出可能にする。
    • 現在では、RetinaNetやYOLOの新しいバージョンなど、多くのモデルのバックボーンとして採用されている。

G検定向けポイントまとめ

物体検出モデルは「2段階型(精度寄り)」「1段階型(速度寄り)」かの区別が最重要です。

モデル名 タイプ キーワード(試験対策) 特徴を一言で
Fast R-CNN 2段階型 RoI Pooling, マルチタスク損失 R-CNNの高速化(CNNは1回)
Faster R-CNN 2段階型 RPN, アンカーボックス 領域提案もCNN化(End-to-End)
SSD 1段階型 マルチスケール特徴マップ 多層の特徴を使い精度と速度を両立
YOLO 1段階型 グリッド分割, 回帰問題 グリッドごとの予測で爆速処理
FPN 拡張構造 特徴ピラミッド 小物体検出に強い構造
タイトルとURLをコピーしました