データリーケージ (Data Leakage)
解説:AIによる「禁断のカンニング」
データリーケージ(リーク)とは、モデルを学習させる際、本来なら予測する時点では知り得ない「未来の情報」や「正解そのもの」が、誤って学習データ(特徴量)に混入してしまう現象です。
これが発生すると、AIは「問題文を読む前に、答えをチラ見している」のと同じ状態になります。
そのため、手元のテスト(検証)では驚異的な高得点を叩き出しますが、いざ本番環境(答えが見えない状態)に投入すると、全く使い物にならないポンコツAIになってしまいます。
⚠️ 典型的な発生パターン
- 時系列データのランダム分割:
株価予測などで、データをシャッフルして学習セットとテストセットに分けてしまう。
→ 「来週の株価」を使って「明日の株価」を予測することになり、未来の情報をカンニングしてしまう。 - 後から決まる情報の混入:
「患者が入院期間何日になるか?」を予測したいのに、「退院日」という項目を入れてしまう。
→ 退院日は終わってみないと分からない(予測時には存在しない)情報。これがあれば計算で正解が出てしまう。
G検定対策
出題ポイント
- 症状:「学習・テストデータでは異常に高い精度が出ているのに、本番運用では精度がガタ落ちする」という現象が起きたら、まずリーケージを疑う。
- 対策:
- 時系列データはシャッフルせず、「過去」で学習し「未来」でテストするよう分割する。
- 「そのデータは、予測したい瞬間に本当に入手可能か?」を厳密に確認する。
ひっかけ対策
- × 情報セキュリティ事故(個人情報流出)のことである
(解説)これが最大のひっかけです。セキュリティ用語の「情報漏洩(Information Leakage)」とは全く別物です。機械学習における「モデル構築のミス(カンニング)」を指す用語です。
