アノテーション (Annotation)
解説:AIに対する「赤ペン先生」
アノテーション(Annotation)は、AIに学習させるためのデータ(画像、テキスト、音声など)に対して、「これが正解だよ」という情報(タグやラベル)を付与する作業のことです。
AIは最初から「猫」を知っているわけではありません。人間が猫の画像一枚一枚に「これは猫」というラベルを貼り付け(タグ付けし)、それを大量に見せることで初めて学習します。
この「正解データ作り」こそがアノテーションであり、AI開発の品質を左右する最重要プロセスです。
鉄則:Garbage In, Garbage Out
「ゴミを入れたら、ゴミが出てくる」。
どんなに高性能な最新モデルを使っても、アノテーションが雑で間違ったデータを学習させれば、バカなAI(精度の低いモデル)しか出来上がりません。
「AIの精度は、データの質で8割決まる」と言われるゆえんです。
主なアノテーションの種類(画像編)
特に画像認識分野では、タスクによって「付け方」が変わります。ここが試験の頻出ポイントです。
| 種類 | 作業内容 | コスト |
|---|---|---|
| 画像分類 (Classification) |
画像全体に「猫」などのラベルを付ける。 | 低 |
| 物体検出 (Object Detection) |
対象物を四角い枠「バウンディングボックス (Bounding Box)」で囲み、ラベルを付ける。 | 中 |
| セグメンテーション (Segmentation) |
対象物の形に合わせて、「画素(ピクセル)単位」で色を塗り分ける。 (セマンティック / インスタンス の2種類がある) |
高 (非常に大変) |
G検定対策
出題ポイント
- プロセス:「教師あり学習」を行うために必須の工程である。
- バウンディングボックス:物体検出のために「矩形(四角い枠)」で囲む作業のこと。
- 品質管理:作業者によって判断がブレないよう、「アノテーション定義書(ガイドライン)」を作成し、品質を担保することが重要。
ひっかけ対策
- 「データクレンジングと同じである」→ × 誤り。
データクレンジングは「欠損値の穴埋めやノイズ除去」など、データを綺麗にする前処理です。アノテーションは「正解ラベルを付ける」意味付けの作業です。 - 「アノテーションは全て自動化されている」→ × 誤り。
AIによる半自動化ツールも増えていますが、最終的な品質担保には依然として「人の目(Human in the loop)」による確認や修正が不可欠です。
