Web教科書

k-分割交差検証

k-分割交差検証(k-fold Cross-Validation)

解説:データの「総当たり戦」

k-分割交差検証は、データをk個のグループ(fold)に分割し、テスト役を交代させながら「k回」学習と評価を繰り返す手法です。ホールドアウト検証が「一発勝負」なら、こちらは「総当たり戦(ローテーション)」です。

例えば、データを5つに分けた場合(k=5)、以下のように5回の実験を行います。

  1. グループ1をテスト用に、残り(2〜5)を学習に使う → 評価①
  2. グループ2をテスト用に、残り(1, 3〜5)を学習に使う → 評価②
  3. ……(これを最後まで繰り返す)……
  4. 最後に、k回の評価結果を「平均」して、最終的なモデルの成績とする。

すべてのデータが必ず1回は「テストデータ」として評価されるため、たまたま簡単なデータが当たるといった「運」の要素を排除でき、評価の信頼性が非常に高いのが特徴です。

項目 メリット・デメリット
メリット
(長所)
「評価が安定する(信頼性が高い)」
すべてのデータを評価に使えるため、データの偏りに強い。データ量が少ない場合でも、限られたデータを最大限有効活用できる。
デメリット
(短所)
「計算時間がかかる(コストが高い)」
単純に学習をk回やり直すため、ホールドアウト検証に比べて計算時間がk倍かかる。
(例:k=5なら5倍、k=10なら10倍の時間がかかる)

G検定対策

出題ポイント

  • 手順の理解:「データをk個に分割」→「k回学習・評価」→「結果を平均」という流れが出題されます。
  • データ量との関係:データが少ないときに特に有効な手法として選ばれやすいです。
  • kの値:一般的には「5」や「10」が使われることが多いです(k=5の場合、データの20%をテスト、80%を学習に使います)。

ひっかけ対策

  • 計算コストの見積もり:「ホールドアウト法より時間がかかる」という点を突く問題に注意してください。
タイトルとURLをコピーしました