Web教科書

ブートストラップサンプリング

ブートストラップサンプリング (Bootstrap Sampling)

解説

ブートストラップサンプリングとは、統計学や機械学習において、元のデータセット(サイズN)から、「重複を許して(復元抽出)」ランダムにN個のデータを抽出して新しいデータセットを作る手法です。

「復元抽出」とは?

「箱の中からボールを引いて、番号を記録したら箱に戻す」という選び方です。
そのため、作られた新しいデータセットには、「同じデータが2回以上選ばれる」こともあれば、「1回も選ばれないデータ」も出てきます。このばらつきを利用して、モデルの多様性を生み出します。
ブートストラップサンプリングの概念図

「36.8%」の法則(OOBデータ)

ブートストラップサンプリングを行うと、統計的に元のデータの約63.2%が選ばれ、残りの約36.8%は選ばれない(除外される)ことが知られています。
この選ばれなかったデータを「OOB(Out-of-Bag:アウト・オブ・バッグ)」と呼び、これをテストデータの代わり(検証用)として使うことができるのが大きなメリットです。

バギング(Bagging)の基礎

この手法は、アンサンブル学習バギング(Bagging)や、それを応用したランダムフォレストの基礎技術として不可欠です。


G検定対策

出題ポイント

  • 定義:「重複あり(復元抽出)」で「元のサイズと同じ数」だけ抽出する。
  • 重要数値:選ばれないデータ(OOB)が全体の約3割(厳密には約36.8%)発生する。
  • 用途:アンサンブル学習の「バギング」で用いられる。

よくあるひっかけ問題

  • × ブートストラップサンプリングは、重複を許さずにデータを分割する手法である
    (解説)それは「交差検証(クロスバリデーション)」などの分割です。ブートストラップは「重複あり(復元)」です。
  • × 選ばれなかったデータ(OOB)は学習に使えないため、捨てるしかない
    (解説)捨てません。学習に使っていないので、モデルの精度を測る「検証データ(テストデータ)」の代わりとして有効活用できます(OOB検証)。
タイトルとURLをコピーしました