Web教科書

バンディットアルゴリズム

バンディットアルゴリズム(Bandit Algorithm)

解説

バンディットアルゴリズムは、「複数の選択肢の中から、どれを選べば最も報酬(利益)が得られるか」を、実際に試行しながら効率よく見つけ出すための手法です。

名前の由来はカジノのスロットマシン(別名:多腕バンディット / Multi-armed Bandit)です。「当たりの確率が異なる複数のスロット台があるとき、限られたコインで最大の賞金を得るには、どの台を打つべきか?」という問題設定が元になっています。

最大の課題:探索と活用のジレンマ

この問題の核心は、相反する2つの行動のバランスをどう取るかにあります。

行動 意味 メリット・デメリット
活用
(Exploitation)
過去のデータを見て、現時点で一番良いと思われる台を選ぶ。 確実に利益は出るが、もっと良い台を見逃す可能性がある。
探索
(Exploration)
データ不足の台をあえて選び、情報を集める 新たな当たり台が見つかるかもしれないが、ハズレを引いて損をするリスクがある。

このバランス(トレードオフ)を解決するために、以下のような代表的な方策(アルゴリズム)が考案されています。

代表的なアルゴリズム

  • ε-greedy法(イプシロン・グリーディ法)
    基本は「活用(一番いい台)」を選ぶが、確率ε(例:10%)でサイコロを振り、ランダムに「探索」を行うシンプルな手法。
  • UCB方策(Upper Confidence Bound)
    「まだあまり試していない台」には期待値の上乗せ(ボーナスポイント)をして評価する手法。「不確実なことには楽観的に挑む」という数式に基づいており、理論的に優れた探索が可能です。

G検定対策

出題ポイント

  • 位置付け:「状態遷移のない(=状態が1つしかない)強化学習」とみなされることが多い。
  • 用語:「多腕バンディット問題(Multi-armed Bandit Problem)」=「スロットマシンの問題」と結びつける。

ひっかけ対策・注意点

  • × 通常の強化学習と同じ
    (解説)一般的な強化学習(MDP)は「行動によって状態が変わる(迷路で右に行けば壁にぶつかる、など)」のに対し、バンディット問題は「行動しても状態は変わらない(スロット台の確率は変わらない)」という点が決定的な違いです。
タイトルとURLをコピーしました