過学習 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

過学習（オーバーフィッティング）

解説：勉強しすぎて応用がきかない状態

過学習（Overfitting）とは、AIモデルが手元の「訓練データ」に適応しすぎてしまい、未知のデータ（テストデータ）に対して正しく予測できなくなる状態のことです。

訓練データに含まれる細かいノイズや、たまたま発生した偏りまで「重要なルール」だと勘違いして暗記してしまうことで発生します。この状態になると、「訓練誤差（練習問題のミス）」は限りなく0に近づくのに、「汎化誤差（本番のミス）」は逆に大きくなってしまいます。

わかりやすい例：「丸暗記の落とし穴」

テスト勉強で、問題集の答えを「ア、ウ、イ…」と記号で丸暗記してしまった学生を想像してください。
この学生は、その問題集（訓練データ）なら100点が取れますが、実際の試験（未知のデータ）で数字や言い回しが少し変わると、全く解けなくなってしまいます。
これが過学習の状態です。本来目指すべきは、公式や解き方を理解する「汎化（Generalization）」の状態です。

過学習のイメージ図

過学習の「原因」と「対策」

G検定では、このペアを覚えているかが問われます。

主な原因	代表的な対策
学習データが少なすぎる（偏った特徴を覚えやすい）	データ拡張 (Data Augmentation)：画像を回転・反転させてデータを水増しする。データを増やす。
モデルが複雑すぎる（表現力が高すぎて、ノイズまで再現してしまう）	正則化 (Regularization)：重みの値が極端にならないよう罰則を与える（L1/L2正則化）。ドロップアウト (Dropout)：学習のたびにランダムにニューロンを無効化する。モデルを単純にする（層を減らすなど）。早期終了（Early Stopping）：検証誤差が悪化し始めたら学習を止める。

G検定対策

出題ポイント

定義の理解：「訓練誤差は小さい（良い）」のに「汎化誤差が大きい（悪い）」というギャップが生じている状態を指す。
対策手法の名前：「正則化」「ドロップアウト」「アーリーストッピング（早期終了）」などの用語が、過学習対策として正しいか選ばせる問題が頻出。
検証：ホールドアウト検証や交差検証を行い、過学習していないかチェックする。

ひっかけ対策

「未学習（学習不足）」との混同：訓練誤差も汎化誤差も両方大きい（そもそも学習できていない）状態は「未学習（Underfitting）」です。過学習とは区別しましょう。
「精度100%」の罠：訓練データに対する精度が100%に近い場合、優秀なモデルである可能性よりも、過学習を疑う必要があります。

前のキーワード汎化誤差

次のキーワード汎化性能