訓練誤差 (Training Error)
解説
訓練誤差(学習誤差)とは、モデルを学習させるために使ったデータ(訓練データ)に対して、どれくらい予測を間違えたかを示す指標です。
「過去問」で100点を取っても意味がない?
この概念は、受験勉強に例えると非常に分かりやすくなります。
- 訓練データ:「過去問集(答え付き)」
- 訓練誤差:「過去問を解いた時の間違いの数」
- 汎化誤差(テスト誤差):「本番の試験(初見の問題)での間違いの数」
訓練誤差が小さい(=0に近い)ということは、「過去問の答えを完璧に覚えた」状態です。
しかし、過去問の答えを丸暗記しただけで、本質の解き方を理解していなければ、数字が変わっただけの本番の試験(未知のデータ)ではボロボロの結果になるかもしれません。
過学習のサイン
機械学習において最も警戒すべき状態は、以下のギャップが開いた時です。
- 訓練誤差はとても小さい(練習では完璧)
- 汎化誤差は大きい(本番では通用しない)
この状態を「過学習(Overfitting)」と呼びます。モデルが訓練データのノイズや細かい癖まで過剰に学習してしまい、応用力がなくなっている状態です。
G検定対策
出題ポイント
- 定義:学習に使ったデータに対する誤差。「モデルがどれだけデータを記憶できたか」を表す。
- 関係性:学習が進むにつれて訓練誤差は下がり続けるが、ある時点を超えると汎化誤差(テスト誤差)は逆に上がってしまう(過学習)。
- 評価:良いモデルとは、「訓練誤差が小さい」だけでなく、「汎化誤差も小さい」モデルのことである。
よくあるひっかけ問題
- × 訓練誤差が0になるまで学習させれば、最高のモデルができる
(解説)訓練誤差0は「丸暗記(過学習)」の可能性が高いです。未知のデータに対応できなくなるため、あえて学習を早めに止める(アーリーストッピング)などの対策が必要です。 - × モデルの性能評価は、訓練誤差のみを用いて行う
(解説)訓練誤差だけでは「カンニングして100点を取った」のか「実力で100点を取った」のか見抜けません。必ずテストデータ(検証データ)に対する誤差を見る必要があります。
