セマンティックセグメンテーション - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

セマンティックセグメンテーション (Semantic Segmentation)

セマンティックセグメンテーション（意味的領域分割）は、画像のピクセル（画素）一つひとつに対して「何が写っているか」の意味ラベル（色）を塗っていくタスクです。

物体検出が物体を「四角い枠（バウンディングボックス）」で大雑把に捉えるのに対し、セグメンテーションは物体の「正確な形・輪郭」を切り出すことができます。

🎨 具体的なイメージ

このタスクの重要な特徴は、「同じ種類の物体は、すべて同じ色で塗ってしまう」ことです。

例えば、二人の人が重なっている場合、それらは「1つの大きな人の塊」として認識され、「Aさん」と「Bさん」に区別することはできません。（※個体を区別するのは、次に紹介する「インスタンスセグメンテーション」の役割です）。

モデル名	特徴とキーワード
FCN (Fully Convolutional Network)	CNNの最後の「全結合層」を「畳み込み層」に置き換えたモデル。位置情報を保持したまま出力できるようになった元祖モデル。
U-Net	医療画像診断（細胞や臓器の抽出）で圧倒的なシェアを誇るモデル。ネットワークの形がアルファベットの「U」の字に似ているのが名前の由来。
SegNet	エンコーダとデコーダを用いた対称的な構造を持つモデル。道路シーンの解析などで有名。

「個々の物体（インスタンス）を識別できる」→ × 誤り。
「車」というクラス領域は分かりますが、「1台目の車」と「2台目の車」を区別することはできません。それができるのは「インスタンスセグメンテーション」です。
「バウンディングボックスを出力する」→ × 誤り。
それは「物体検出」です。セグメンテーションは「マスク画像（塗り分け画像）」を出力します。