Web教科書

交差検証

交差検証 (Cross-Validation)

解説

交差検証(クロスバリデーション)とは、手持ちのデータを何度も分割し直して、学習と評価を繰り返すことで、AIモデルの実力を正確に測る手法です。

「たまたま」を排除する

データを単純に1回だけ分ける「ホールドアウト法」では、分割の運によって結果が変わりがちです(たまたま簡単なデータがテスト用になった場合、実力以上に良い点数が出てしまいます)。
交差検証は、「模擬試験を何回も受けて、その平均点を取る」のようなものです。これにより、運の要素を排除し、モデルの真の実力(汎化性能)を安定して評価できます。

代表例:k-分割交差検証 (k-fold Cross-Validation)

最も一般的な手順は以下の通りです。

  1. データをk個のグループに分割する(例:5分割)。
  2. そのうちの1つを「テスト用」、残りを「学習用」として学習・評価を行う。
  3. テスト用のグループを入れ替えて、同じことを繰り返す。
  4. すべてのグループが1回ずつテスト用になるまで(計k回)行い、最後に平均スコアを出す

ホールドアウト法との比較

手法 メリット デメリット 向いている場面
ホールドアウト法
(1回だけ分割)
計算が速い。 分割の運に左右される。 データ量が大量にある時。
交差検証
(k回分割)
評価が安定する。
データを無駄なく使える。
計算時間がk倍かかる。 データ量が少ない時。

G検定対策

出題ポイント

  • 目的:分割の偏りによる評価のばらつきを防ぎ、汎化性能を正しく評価する。
  • 特徴:すべてのデータが「学習データ」にも「テストデータ」にも使われる(無駄がない)。
  • Leave-One-Out交差検証(LOOCV):
    分割数 $k$ を「データ数そのもの」と同じにする究極の方法。テストデータが常に1個になる。データが極端に少ない場合に有効だが、計算コストは最大になる。

よくあるひっかけ問題

  • × 交差検証は、ホールドアウト法よりも計算コストが低い
    (解説)逆です。学習と評価を何回も繰り返すため、計算時間は長くなります。
  • × 交差検証を行えば、モデルの精度そのものが向上する
    (解説)交差検証はあくまで「評価(健康診断)」の手法です。これ自体がモデルを賢くするわけではありません(※ただし、ハイパーパラメータの調整に使うことで、結果的に良いモデルを選ぶことはできます)。
タイトルとURLをコピーしました