Web教科書

訓練誤差

訓練誤差 (Training Error)

解説

訓練誤差(学習誤差)とは、モデルを学習させるために使ったデータ(訓練データ)に対して、どれくらい予測を間違えたかを示す指標です。

「過去問」で100点を取っても意味がない?

この概念は、受験勉強に例えると非常に分かりやすくなります。

  • 訓練データ:「過去問集(答え付き)」
  • 訓練誤差:「過去問を解いた時の間違いの数」
  • 汎化誤差(テスト誤差):「本番の試験(初見の問題)での間違いの数」

訓練誤差が小さい(=0に近い)ということは、「過去問の答えを完璧に覚えた」状態です。
しかし、過去問の答えを丸暗記しただけで、本質の解き方を理解していなければ、数字が変わっただけの本番の試験(未知のデータ)ではボロボロの結果になるかもしれません。

過学習のサイン

機械学習において最も警戒すべき状態は、以下のギャップが開いた時です。

  • 訓練誤差はとても小さい(練習では完璧)
  • 汎化誤差は大きい(本番では通用しない)

この状態を過学習(Overfitting)と呼びます。モデルが訓練データのノイズや細かい癖まで過剰に学習してしまい、応用力がなくなっている状態です。


G検定対策

出題ポイント

  • 定義:学習に使ったデータに対する誤差。「モデルがどれだけデータを記憶できたか」を表す。
  • 関係性:学習が進むにつれて訓練誤差は下がり続けるが、ある時点を超えると汎化誤差(テスト誤差)は逆に上がってしまう(過学習)
  • 評価:良いモデルとは、「訓練誤差が小さい」だけでなく、「汎化誤差も小さい」モデルのことである。

よくあるひっかけ問題

  • × 訓練誤差が0になるまで学習させれば、最高のモデルができる
    (解説)訓練誤差0は「丸暗記(過学習)」の可能性が高いです。未知のデータに対応できなくなるため、あえて学習を早めに止める(アーリーストッピング)などの対策が必要です。
  • × モデルの性能評価は、訓練誤差のみを用いて行う
    (解説)訓練誤差だけでは「カンニングして100点を取った」のか「実力で100点を取った」のか見抜けません。必ずテストデータ(検証データ)に対する誤差を見る必要があります。
タイトルとURLをコピーしました