UCB方策
解説
UCB方策(Upper Confidence Bound)は、主にバンディット問題で用いられる行動選択ルールです。「これまでの平均報酬が高い行動」と「まだあまり試しておらず不確かさが大きい行動」をバランスよく選ぶことを目的とします。
具体的には、各行動について以下の値を計算し、その値が最大となる行動を選択します。
選択指標 = 推定される平均報酬 + 不確かさに応じたボーナス項(上限信頼界)
これにより、既に良いと分かっている行動を活用しつつ、試行回数が少なく本当の実力が分かっていない行動も積極的に試すことができます。ε-greedy方策が単純にランダム探索を行うのに対し、UCB方策は理論的に保証された探索性能を持つ点が特徴です。
G検定では、「上限信頼界」「不確かさの考慮」「バンディットアルゴリズムとの関係」が問われやすいポイントです。

G検定対策
出題ポイント
- UCB方策が「平均報酬+不確かさ」を指標に行動を選ぶ方策であること
- まだあまり試していない行動も積極的に探索できること
- バンディット問題で理論的な探索性能が保証される手法であること
ひっかけ対策
- ε-greedy方策のような単純なランダム探索と混同しない
- 「常に平均報酬が最大の行動だけを選ぶ」貪欲方策(Greedy方策)と区別する
