Web教科書

ε-greedy方策

ε-greedy方策

解説

ε-greedy方策(イプシロン・グリーディ方策)は、強化学習における代表的な行動選択ルールです。「既に分かっている最適行動を活用しつつ、一定の確率で新しい行動も試す」ことで、探索(Exploration)と活用(Exploitation)のバランスをとる手法です。

具体的には、以下の確率で行動を決定します。

  • 確率 1−ε(活用):現在の知識に基づいて最も価値が高い行動(グリーディ行動)を選ぶ。
  • 確率 ε(探索):ランダムに行動を選択する。

これにより、既知の良い行動を中心にしながらも、たまに別の行動を試すことで、まだ見つかっていない「より良い行動」を発見できる可能性を残します。例えば、ゲームで「強いと分かっている武器」を主に使いつつ、たまに別の武器も試してみるイメージです。

G検定対策

出題ポイント

  • ε-greedy方策が「探索と活用」のバランスをとる行動選択ルールであること
  • 確率 1−ε で最適行動、確率 ε でランダム行動を選ぶこと
  • Q学習などで得られたQ値を活用しつつ、学習を進めるために使われること

ひっかけ対策

  • 常にランダムに行動する方策と混同しない
  • εを固定にする場合と、徐々に減らしていくスケジュール(学習が進むにつれ探索を減らす)を混同しないように注意する
  • バンディットアルゴリズムの一種としても扱われる。
タイトルとURLをコピーしました