ブートストラップサンプリング (Bootstrap Sampling)
解説
ブートストラップサンプリングとは、統計学や機械学習において、元のデータセット(サイズN)から、「重複を許して(復元抽出)」ランダムにN個のデータを抽出して新しいデータセットを作る手法です。
「復元抽出」とは?
「箱の中からボールを引いて、番号を記録したら箱に戻す」という選び方です。
そのため、作られた新しいデータセットには、「同じデータが2回以上選ばれる」こともあれば、「1回も選ばれないデータ」も出てきます。このばらつきを利用して、モデルの多様性を生み出します。

「36.8%」の法則(OOBデータ)
ブートストラップサンプリングを行うと、統計的に元のデータの約63.2%が選ばれ、残りの約36.8%は選ばれない(除外される)ことが知られています。
この選ばれなかったデータを「OOB(Out-of-Bag:アウト・オブ・バッグ)」と呼び、これをテストデータの代わり(検証用)として使うことができるのが大きなメリットです。
バギング(Bagging)の基礎
この手法は、アンサンブル学習の「バギング(Bagging)」や、それを応用した「ランダムフォレスト」の基礎技術として不可欠です。
G検定対策
出題ポイント
- 定義:「重複あり(復元抽出)」で「元のサイズと同じ数」だけ抽出する。
- 重要数値:選ばれないデータ(OOB)が全体の約3割(厳密には約36.8%)発生する。
- 用途:アンサンブル学習の「バギング」で用いられる。
よくあるひっかけ問題
- × ブートストラップサンプリングは、重複を許さずにデータを分割する手法である
(解説)それは「交差検証(クロスバリデーション)」などの分割です。ブートストラップは「重複あり(復元)」です。 - × 選ばれなかったデータ(OOB)は学習に使えないため、捨てるしかない
(解説)捨てません。学習に使っていないので、モデルの精度を測る「検証データ(テストデータ)」の代わりとして有効活用できます(OOB検証)。
