k-分割交差検証(k-fold Cross-Validation)
解説:データの「総当たり戦」
k-分割交差検証は、データをk個のグループ(fold)に分割し、テスト役を交代させながら「k回」学習と評価を繰り返す手法です。ホールドアウト検証が「一発勝負」なら、こちらは「総当たり戦(ローテーション)」です。
例えば、データを5つに分けた場合(k=5)、以下のように5回の実験を行います。
- グループ1をテスト用に、残り(2〜5)を学習に使う → 評価①
- グループ2をテスト用に、残り(1, 3〜5)を学習に使う → 評価②
- ……(これを最後まで繰り返す)……
- 最後に、k回の評価結果を「平均」して、最終的なモデルの成績とする。

すべてのデータが必ず1回は「テストデータ」として評価されるため、たまたま簡単なデータが当たるといった「運」の要素を排除でき、評価の信頼性が非常に高いのが特徴です。
| 項目 | メリット・デメリット |
|---|---|
| メリット (長所) |
「評価が安定する(信頼性が高い)」 すべてのデータを評価に使えるため、データの偏りに強い。データ量が少ない場合でも、限られたデータを最大限有効活用できる。 |
| デメリット (短所) |
「計算時間がかかる(コストが高い)」 単純に学習をk回やり直すため、ホールドアウト検証に比べて計算時間がk倍かかる。 (例:k=5なら5倍、k=10なら10倍の時間がかかる) |
G検定対策
出題ポイント
- 手順の理解:「データをk個に分割」→「k回学習・評価」→「結果を平均」という流れが出題されます。
- データ量との関係:データが少ないときに特に有効な手法として選ばれやすいです。
- kの値:一般的には「5」や「10」が使われることが多いです(k=5の場合、データの20%をテスト、80%を学習に使います)。
ひっかけ対策
- 計算コストの見積もり:「ホールドアウト法より時間がかかる」という点を突く問題に注意してください。
