バンディットアルゴリズム(Bandit Algorithm)
解説
バンディットアルゴリズムは、「複数の選択肢の中から、どれを選べば最も報酬(利益)が得られるか」を、実際に試行しながら効率よく見つけ出すための手法です。
名前の由来はカジノのスロットマシン(別名:多腕バンディット / Multi-armed Bandit)です。「当たりの確率が異なる複数のスロット台があるとき、限られたコインで最大の賞金を得るには、どの台を打つべきか?」という問題設定が元になっています。
最大の課題:探索と活用のジレンマ
この問題の核心は、相反する2つの行動のバランスをどう取るかにあります。
| 行動 | 意味 | メリット・デメリット |
|---|---|---|
| 活用 (Exploitation) |
過去のデータを見て、現時点で一番良いと思われる台を選ぶ。 | 確実に利益は出るが、もっと良い台を見逃す可能性がある。 |
| 探索 (Exploration) |
データ不足の台をあえて選び、情報を集める。 | 新たな当たり台が見つかるかもしれないが、ハズレを引いて損をするリスクがある。 |
このバランス(トレードオフ)を解決するために、以下のような代表的な方策(アルゴリズム)が考案されています。
代表的なアルゴリズム
- ε-greedy法(イプシロン・グリーディ法):
基本は「活用(一番いい台)」を選ぶが、確率ε(例:10%)でサイコロを振り、ランダムに「探索」を行うシンプルな手法。 - UCB方策(Upper Confidence Bound):
「まだあまり試していない台」には期待値の上乗せ(ボーナスポイント)をして評価する手法。「不確実なことには楽観的に挑む」という数式に基づいており、理論的に優れた探索が可能です。
G検定対策
出題ポイント
- 位置付け:「状態遷移のない(=状態が1つしかない)強化学習」とみなされることが多い。
- 用語:「多腕バンディット問題(Multi-armed Bandit Problem)」=「スロットマシンの問題」と結びつける。
ひっかけ対策・注意点
- × 通常の強化学習と同じ
(解説)一般的な強化学習(MDP)は「行動によって状態が変わる(迷路で右に行けば壁にぶつかる、など)」のに対し、バンディット問題は「行動しても状態は変わらない(スロット台の確率は変わらない)」という点が決定的な違いです。
