Web教科書

汎化誤差

汎化誤差 (Generalization Error)

解説

汎化誤差(テスト誤差)とは、学習済みモデルが「まだ見たことのない未知のデータ」に対して、どれくらい正確に予測できるかを示す指標です。

「本番の試験」で点数が取れるか?

訓練誤差との違いは、受験勉強に例えると明確になります。

  • 訓練誤差(過去問):「練習問題をどれだけ間違えたか」。
  • 汎化誤差(本番試験):「初見の問題をどれだけ間違えたか」。

AI開発の最終ゴールは、過去問を暗記することではなく、実社会の未知のデータ(本番)を正しく予測することです。したがって、最も重視すべき指標はこの「汎化誤差」になります。

過学習を見抜くカギ

訓練誤差と汎化誤差の「開き(ギャップ)」を見ることで、モデルの状態を診断できます。

状態 特徴 診断
理想的 訓練誤差も汎化誤差も共に小さい しっかり学習できており、応用力もある。
過学習
(Overfitting)
訓練誤差は小さいが、汎化誤差が大きい 練習データの「丸暗記」状態で、応用力がない。
未学習
(Underfitting)
訓練誤差も汎化誤差も大きい そもそも学習が足りていない。

G検定対策

出題ポイント

  • 定義:未知のデータに対する誤差。汎化性能を測るための指標。
  • バイアス・バリアンス分解:汎化誤差は「バイアス(偏り)」と「バリアンス(分散)」と「ノイズ」の和に分解できる(理論的な背景として問われることがある)。

よくあるひっかけ問題

  • × 汎化誤差は直接計算できる
    (解説)真の汎化誤差(あらゆる未知データに対する誤差)は理論的な値であり、直接計算することは不可能です。そのため、手元にあるデータを分割して作った「テストデータ(検証データ)」の誤差を、汎化誤差の近似値(代わり)として使います。
  • × 学習データだけで汎化誤差を評価できる
    (解説)できません。学習に使っていないデータで試さないと、未知のデータへの対応力は測れません。必ず評価用のデータを取り分けておく必要があります。
タイトルとURLをコピーしました