データリーケージ（Data Leakage）

2026.01.312026.02.15

データリーケージ (Data Leakage)

解説：AIによる「禁断のカンニング」

データリーケージ（リーク）とは、モデルを学習させる際、本来なら予測する時点では知り得ない「未来の情報」や「正解そのもの」が、誤って学習データ（特徴量）に混入してしまう現象です。

これが発生すると、AIは「問題文を読む前に、答えをチラ見している」のと同じ状態になります。
そのため、手元のテスト（検証）では驚異的な高得点を叩き出しますが、いざ本番環境（答えが見えない状態）に投入すると、全く使い物にならないポンコツAIになってしまいます。

⚠️ 典型的な発生パターン

時系列データのランダム分割：
株価予測などで、データをシャッフルして学習セットとテストセットに分けてしまう。
→ 「来週の株価」を使って「明日の株価」を予測することになり、未来の情報をカンニングしてしまう。
後から決まる情報の混入：
「患者が入院期間何日になるか？」を予測したいのに、「退院日」という項目を入れてしまう。
→ 退院日は終わってみないと分からない（予測時には存在しない）情報。これがあれば計算で正解が出てしまう。

G検定対策

出題ポイント

症状：「学習・テストデータでは異常に高い精度が出ているのに、本番運用では精度がガタ落ちする」という現象が起きたら、まずリーケージを疑う。
対策：
- 時系列データはシャッフルせず、「過去」で学習し「未来」でテストするよう分割する。
- 「そのデータは、予測したい瞬間に本当に入手可能か？」を厳密に確認する。

ひっかけ対策

× 情報セキュリティ事故（個人情報流出）のことである
（解説）これが最大のひっかけです。セキュリティ用語の「情報漏洩（Information Leakage）」とは全く別物です。機械学習における「モデル構築のミス（カンニング）」を指す用語です。

前のキーワードコーパス

タイトルとURLをコピーしました