ブートストラップサンプリング - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

ブートストラップサンプリング (Bootstrap Sampling)

解説

ブートストラップサンプリングとは、統計学や機械学習において、元のデータセット（サイズN）から、「重複を許して（復元抽出）」ランダムにN個のデータを抽出して新しいデータセットを作る手法です。

「復元抽出」とは？

「箱の中からボールを引いて、番号を記録したら箱に戻す」という選び方です。
そのため、作られた新しいデータセットには、「同じデータが2回以上選ばれる」こともあれば、「1回も選ばれないデータ」も出てきます。このばらつきを利用して、モデルの多様性を生み出します。
ブートストラップサンプリングの概念図

「36.8%」の法則（OOBデータ）

ブートストラップサンプリングを行うと、統計的に元のデータの約63.2%が選ばれ、残りの約36.8%は選ばれない（除外される）ことが知られています。
この選ばれなかったデータを「OOB（Out-of-Bag：アウト・オブ・バッグ）」と呼び、これをテストデータの代わり（検証用）として使うことができるのが大きなメリットです。

バギング（Bagging）の基礎

この手法は、アンサンブル学習の「バギング（Bagging）」や、それを応用した「ランダムフォレスト」の基礎技術として不可欠です。

G検定対策

出題ポイント

定義：「重複あり（復元抽出）」で「元のサイズと同じ数」だけ抽出する。
重要数値：選ばれないデータ（OOB）が全体の約3割（厳密には約36.8%）発生する。
用途：アンサンブル学習の「バギング」で用いられる。

よくあるひっかけ問題

× ブートストラップサンプリングは、重複を許さずにデータを分割する手法である
（解説）それは「交差検証（クロスバリデーション）」などの分割です。ブートストラップは「重複あり（復元）」です。
× 選ばれなかったデータ（OOB）は学習に使えないため、捨てるしかない
（解説）捨てません。学習に使っていないので、モデルの精度を測る「検証データ（テストデータ）」の代わりとして有効活用できます（OOB検証）。