ε-greedy方策

2026.01.082026.02.15

ε-greedy方策

解説

ε-greedy方策（イプシロン・グリーディ方策）は、強化学習における代表的な行動選択ルールです。「既に分かっている最適行動を活用しつつ、一定の確率で新しい行動も試す」ことで、探索（Exploration）と活用（Exploitation）のバランスをとる手法です。

具体的には、以下の確率で行動を決定します。

確率 1−ε（活用）：現在の知識に基づいて最も価値が高い行動（グリーディ行動）を選ぶ。
確率 ε（探索）：ランダムに行動を選択する。

これにより、既知の良い行動を中心にしながらも、たまに別の行動を試すことで、まだ見つかっていない「より良い行動」を発見できる可能性を残します。例えば、ゲームで「強いと分かっている武器」を主に使いつつ、たまに別の武器も試してみるイメージです。

G検定対策

出題ポイント

ε-greedy方策が「探索と活用」のバランスをとる行動選択ルールであること
確率 1−ε で最適行動、確率 ε でランダム行動を選ぶこと
Q学習などで得られたQ値を活用しつつ、学習を進めるために使われること

ひっかけ対策

常にランダムに行動する方策と混同しない
εを固定にする場合と、徐々に減らしていくスケジュール（学習が進むにつれ探索を減らす）を混同しないように注意する
バンディットアルゴリズムの一種としても扱われる。

Udemy G検定 2026年難化トレンド対応模擬試験5回分（725問）

🎁 G検定の本番は年々難化中・全725問の問題集で実力チェック

クーポン情報を見る →

📚 より詳細を学びたい方へ

G検定はUdemy併用がおすすめ！効率的に合格する勉強法

🎓 動画で学ぶ

G検定はUdemy併用がおすすめ

合格者が選ぶUdemy講座と効率的な使い方を解説。

G検定おすすめ参考書・問題集4選 2026年シラバス対応

📕 紙で読む

2026対応おすすめ参考書・問題集4選

最新シラバス対応の参考書を選び方とともに比較。

前のキーワード Q学習

次のキーワード UCB方策

タイトルとURLをコピーしました