Web教科書

Q学習

Q学習 (Q-learning)

解説

Q学習(Q-learning)は、強化学習において最も代表的な手法の一つです。

「ある状態で、ある行動をとったときに、将来どれくらいの報酬が得られるか」を表す値、すなわち「行動価値関数 Q(s, a)」を学習します。

「Qテーブル」の更新

Q学習では、縦軸に「状態(State)」、横軸に「行動(Action)」をとった表(Qテーブル)を作り、実際に動き回りながら、より良い結果が出た行動の点数(Q値)を書き換えていきます。

最大の特徴:Off-policy(オフ方策)

Q学習の最大の特徴は、Q値を更新する際に「次の状態でとりうる『最大(max)』のQ値を使う」という点です。
実際に次のステップでその行動をとるかどうかに関わらず、「もしベストを尽くしたらこれくらい貰えるはず」という理想値を使って現在の評価を更新します。これをOff-policy(オフ方策)型と呼びます。

ライバル「SARSA」との違い

G検定では、Q学習と非常によく似た手法である「SARSA(サーサ)」との比較が頻出です。最大の違いは、「次の行動をどう見積もるか(理想か現実か)」という点にあります。

比較項目 Q学習 (Q-learning) SARSA (サーサ)
学習タイプ Off-policy(オフ方策) On-policy(オン方策)
更新の基準 次の状態で最大のQ値を使う。
(理想的な行動を仮定)
実際に次の状態で選んだ行動のQ値を使う。
(現実の行動を反映)
性格・特徴 「楽観的」
探索中に悪い行動をとっても「次は最善の手を打つはず」と仮定して学習するため、最短経路(最適解)を見つけやすいが、リスクを負うこともある。
「堅実・慎重」
探索中にあえて選んだ(あるいは失敗した)行動の結果も学習に反映するため、崖っぷちを歩くような危険なルートを避け、安全な方策になりやすい。

G検定対策

出題ポイント

  • 定義:「行動価値関数 Q(s, a)」を学習する「モデルフリー」の手法である。
  • 更新式:数式の中に max Q(s’, a’) (次の状態での最大値)が含まれていればQ学習である。
  • 用語:「Off-policy(オフ方策)」手法の代表例として名前が挙がる。

ひっかけ対策・注意点

  • × SARSAとの混同:
    「実際に選択した行動を使って更新する」のはSARSA、「最大のQ値を使って更新する」のがQ学習です。
  • Qテーブルの限界:
    状態や行動の数が少なければ「表(テーブル)」で管理できますが、囲碁や自動運転のように状態が無限にある場合はテーブルが作れません。そのため、Q関数をディープラーニング(ニューラルネットワーク)で近似するDQN(Deep Q-Network)へと発展します。
タイトルとURLをコピーしました