Web教科書

セマンティックセグメンテーション

セマンティックセグメンテーション (Semantic Segmentation)

解説:AIによる「デジタル塗り絵」

セマンティックセグメンテーション(意味的領域分割)は、画像のピクセル(画素)一つひとつに対して「何が写っているか」の意味ラベル(色)を塗っていくタスクです。

物体検出が物体を「四角い枠(バウンディングボックス)」で大雑把に捉えるのに対し、セグメンテーションは物体の「正確な形・輪郭」を切り出すことができます。

🎨 具体的なイメージ

  • Zoomの背景ぼかし:
    「人物」の領域だけをピクセル単位で正確に切り抜き、それ以外の「背景」領域にぼかし加工を入れます。
  • 自動運転:
    カメラ映像を見て、「道路(灰色)」「歩道(赤)」「車(青)」のように視界全体を色分けし、走行可能なエリアを厳密に判定します。
セマンティックセグメンテーションの出力例

最大の弱点:個体識別はしない

このタスクの重要な特徴は、「同じ種類の物体は、すべて同じ色で塗ってしまう」ことです。

例えば、二人の人が重なっている場合、それらは「1つの大きな人の塊」として認識され、「Aさん」と「Bさん」に区別することはできません。(※個体を区別するのは、次に紹介する「インスタンスセグメンテーション」の役割です)。

代表的なモデル(ここが出ます!)

モデル名 特徴とキーワード
FCN
(Fully Convolutional Network)
CNNの最後の「全結合層」を「畳み込み層」に置き換えたモデル。
位置情報を保持したまま出力できるようになった元祖モデル。
U-Net 医療画像診断(細胞や臓器の抽出)で圧倒的なシェアを誇るモデル。
ネットワークの形がアルファベットの「U」の字に似ているのが名前の由来。
SegNet エンコーダとデコーダを用いた対称的な構造を持つモデル。道路シーンの解析などで有名。

G検定対策

出題ポイント

  • 定義:画像の「画素(ピクセル)単位」でクラス分類を行うタスクである。
  • U-Net:「医療画像」「少数のデータでも学習可能」「スキップ接続(Skip Connection)」といったキーワードと共に頻出します。
  • Up-sampling:畳み込みで小さくなった特徴マップを、元の画像サイズに戻す処理(逆畳み込み / Deconvolution)が必要になる。

ひっかけ対策

  • 「個々の物体(インスタンス)を識別できる」→ × 誤り。
    「車」というクラス領域は分かりますが、「1台目の車」と「2台目の車」を区別することはできません。それができるのは「インスタンスセグメンテーション」です。
  • 「バウンディングボックスを出力する」→ × 誤り。
    それは「物体検出」です。セグメンテーションは「マスク画像(塗り分け画像)」を出力します。
タイトルとURLをコピーしました