交差検証 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

交差検証 (Cross-Validation)

解説

交差検証（クロスバリデーション）とは、手持ちのデータを何度も分割し直して、学習と評価を繰り返すことで、AIモデルの実力を正確に測る手法です。

「たまたま」を排除する

データを単純に1回だけ分ける「ホールドアウト法」では、分割の運によって結果が変わりがちです（たまたま簡単なデータがテスト用になった場合、実力以上に良い点数が出てしまいます）。
交差検証は、「模擬試験を何回も受けて、その平均点を取る」のようなものです。これにより、運の要素を排除し、モデルの真の実力（汎化性能）を安定して評価できます。

代表例：k-分割交差検証 (k-fold Cross-Validation)

最も一般的な手順は以下の通りです。

データをk個のグループに分割する（例：5分割）。
そのうちの1つを「テスト用」、残りを「学習用」として学習・評価を行う。
テスト用のグループを入れ替えて、同じことを繰り返す。
すべてのグループが1回ずつテスト用になるまで（計k回）行い、最後に平均スコアを出す。

ホールドアウト法との比較

手法	メリット	デメリット	向いている場面
ホールドアウト法（1回だけ分割）	計算が速い。	分割の運に左右される。	データ量が大量にある時。
交差検証（k回分割）	評価が安定する。データを無駄なく使える。	計算時間がk倍かかる。	データ量が少ない時。

G検定対策

出題ポイント

目的：分割の偏りによる評価のばらつきを防ぎ、汎化性能を正しく評価する。
特徴：すべてのデータが「学習データ」にも「テストデータ」にも使われる（無駄がない）。
Leave-One-Out交差検証（LOOCV）：
分割数 $k$ を「データ数そのもの」と同じにする究極の方法。テストデータが常に1個になる。データが極端に少ない場合に有効だが、計算コストは最大になる。

よくあるひっかけ問題

× 交差検証は、ホールドアウト法よりも計算コストが低い
（解説）逆です。学習と評価を何回も繰り返すため、計算時間は長くなります。
× 交差検証を行えば、モデルの精度そのものが向上する
（解説）交差検証はあくまで「評価（健康診断）」の手法です。これ自体がモデルを賢くするわけではありません（※ただし、ハイパーパラメータの調整に使うことで、結果的に良いモデルを選ぶことはできます）。