バンディットアルゴリズム - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

バンディットアルゴリズム（Bandit Algorithm）

バンディットアルゴリズムは、「複数の選択肢の中から、どれを選べば最も報酬（利益）が得られるか」を、実際に試行しながら効率よく見つけ出すための手法です。

名前の由来はカジノのスロットマシン（別名：多腕バンディット / Multi-armed Bandit）です。「当たりの確率が異なる複数のスロット台があるとき、限られたコインで最大の賞金を得るには、どの台を打つべきか？」という問題設定が元になっています。

この問題の核心は、相反する2つの行動のバランスをどう取るかにあります。

行動	意味	メリット・デメリット
活用 (Exploitation)	過去のデータを見て、現時点で一番良いと思われる台を選ぶ。	確実に利益は出るが、もっと良い台を見逃す可能性がある。
探索 (Exploration)	データ不足の台をあえて選び、情報を集める。	新たな当たり台が見つかるかもしれないが、ハズレを引いて損をするリスクがある。

このバランス（トレードオフ）を解決するために、以下のような代表的な方策（アルゴリズム）が考案されています。

ε-greedy法（イプシロン・グリーディ法）：
基本は「活用（一番いい台）」を選ぶが、確率ε（例：10%）でサイコロを振り、ランダムに「探索」を行うシンプルな手法。
UCB方策（Upper Confidence Bound）：
「まだあまり試していない台」には期待値の上乗せ（ボーナスポイント）をして評価する手法。「不確実なことには楽観的に挑む」という数式に基づいており、理論的に優れた探索が可能です。

× 通常の強化学習と同じ
（解説）一般的な強化学習（MDP）は「行動によって状態が変わる（迷路で右に行けば壁にぶつかる、など）」のに対し、バンディット問題は「行動しても状態は変わらない（スロット台の確率は変わらない）」という点が決定的な違いです。