交差検証 (Cross-Validation)
解説
交差検証(クロスバリデーション)とは、手持ちのデータを何度も分割し直して、学習と評価を繰り返すことで、AIモデルの実力を正確に測る手法です。
「たまたま」を排除する
データを単純に1回だけ分ける「ホールドアウト法」では、分割の運によって結果が変わりがちです(たまたま簡単なデータがテスト用になった場合、実力以上に良い点数が出てしまいます)。
交差検証は、「模擬試験を何回も受けて、その平均点を取る」のようなものです。これにより、運の要素を排除し、モデルの真の実力(汎化性能)を安定して評価できます。
代表例:k-分割交差検証 (k-fold Cross-Validation)
最も一般的な手順は以下の通りです。
- データをk個のグループに分割する(例:5分割)。
- そのうちの1つを「テスト用」、残りを「学習用」として学習・評価を行う。
- テスト用のグループを入れ替えて、同じことを繰り返す。
- すべてのグループが1回ずつテスト用になるまで(計k回)行い、最後に平均スコアを出す。
ホールドアウト法との比較
| 手法 | メリット | デメリット | 向いている場面 |
|---|---|---|---|
| ホールドアウト法 (1回だけ分割) |
計算が速い。 | 分割の運に左右される。 | データ量が大量にある時。 |
| 交差検証 (k回分割) |
評価が安定する。 データを無駄なく使える。 |
計算時間がk倍かかる。 | データ量が少ない時。 |
G検定対策
出題ポイント
- 目的:分割の偏りによる評価のばらつきを防ぎ、汎化性能を正しく評価する。
- 特徴:すべてのデータが「学習データ」にも「テストデータ」にも使われる(無駄がない)。
- Leave-One-Out交差検証(LOOCV):
分割数 $k$ を「データ数そのもの」と同じにする究極の方法。テストデータが常に1個になる。データが極端に少ない場合に有効だが、計算コストは最大になる。
よくあるひっかけ問題
- × 交差検証は、ホールドアウト法よりも計算コストが低い
(解説)逆です。学習と評価を何回も繰り返すため、計算時間は長くなります。 - × 交差検証を行えば、モデルの精度そのものが向上する
(解説)交差検証はあくまで「評価(健康診断)」の手法です。これ自体がモデルを賢くするわけではありません(※ただし、ハイパーパラメータの調整に使うことで、結果的に良いモデルを選ぶことはできます)。
