Web教科書

アノテーション

アノテーション (Annotation)

解説:AIに対する「赤ペン先生」

アノテーション(Annotation)は、AIに学習させるためのデータ(画像、テキスト、音声など)に対して、「これが正解だよ」という情報(タグやラベル)を付与する作業のことです。

AIは最初から「猫」を知っているわけではありません。人間が猫の画像一枚一枚に「これは猫」というラベルを貼り付け(タグ付けし)、それを大量に見せることで初めて学習します。
この「正解データ作り」こそがアノテーションであり、AI開発の品質を左右する最重要プロセスです。

鉄則:Garbage In, Garbage Out

「ゴミを入れたら、ゴミが出てくる」。
どんなに高性能な最新モデルを使っても、アノテーションが雑で間違ったデータを学習させれば、バカなAI(精度の低いモデル)しか出来上がりません。
「AIの精度は、データの質で8割決まる」と言われるゆえんです。

主なアノテーションの種類(画像編)

特に画像認識分野では、タスクによって「付け方」が変わります。ここが試験の頻出ポイントです。

種類 作業内容 コスト
画像分類
(Classification)
画像全体に「猫」などのラベルを付ける。
物体検出
(Object Detection)
対象物を四角い枠「バウンディングボックス (Bounding Box)」で囲み、ラベルを付ける。
セグメンテーション
(Segmentation)
対象物の形に合わせて、「画素(ピクセル)単位」で色を塗り分ける。
セマンティック / インスタンス の2種類がある)

(非常に大変)

G検定対策

出題ポイント

  • プロセス:教師あり学習」を行うために必須の工程である。
  • バウンディングボックス:物体検出のために「矩形(四角い枠)」で囲む作業のこと。
  • 品質管理:作業者によって判断がブレないよう、「アノテーション定義書(ガイドライン)」を作成し、品質を担保することが重要。

ひっかけ対策

  • 「データクレンジングと同じである」→ × 誤り。
    データクレンジングは「欠損値の穴埋めやノイズ除去」など、データを綺麗にする前処理です。アノテーションは「正解ラベルを付ける」意味付けの作業です。
  • 「アノテーションは全て自動化されている」→ × 誤り。
    AIによる半自動化ツールも増えていますが、最終的な品質担保には依然として「人の目(Human in the loop)」による確認や修正が不可欠です。
タイトルとURLをコピーしました