Q学習 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

Q学習 (Q-learning)

解説

Q学習（Q-learning）は、強化学習において最も代表的な手法の一つです。

「ある状態で、ある行動をとったときに、将来どれくらいの報酬が得られるか」を表す値、すなわち「行動価値関数 Q(s, a)」を学習します。

「Qテーブル」の更新

Q学習では、縦軸に「状態（State）」、横軸に「行動（Action）」をとった表（Qテーブル）を作り、実際に動き回りながら、より良い結果が出た行動の点数（Q値）を書き換えていきます。

最大の特徴：Off-policy（オフ方策）

Q学習の最大の特徴は、Q値を更新する際に「次の状態でとりうる『最大（max）』のQ値を使う」という点です。
実際に次のステップでその行動をとるかどうかに関わらず、「もしベストを尽くしたらこれくらい貰えるはず」という理想値を使って現在の評価を更新します。これをOff-policy（オフ方策）型と呼びます。

ライバル「SARSA」との違い

G検定では、Q学習と非常によく似た手法である「SARSA（サーサ）」との比較が頻出です。最大の違いは、「次の行動をどう見積もるか（理想か現実か）」という点にあります。

比較項目	Q学習 (Q-learning)	SARSA (サーサ)
学習タイプ	Off-policy（オフ方策）	On-policy（オン方策）
更新の基準	次の状態で最大のQ値を使う。 (理想的な行動を仮定)	実際に次の状態で選んだ行動のQ値を使う。 (現実の行動を反映)
性格・特徴	「楽観的」探索中に悪い行動をとっても「次は最善の手を打つはず」と仮定して学習するため、最短経路（最適解）を見つけやすいが、リスクを負うこともある。	「堅実・慎重」探索中にあえて選んだ（あるいは失敗した）行動の結果も学習に反映するため、崖っぷちを歩くような危険なルートを避け、安全な方策になりやすい。

G検定対策

出題ポイント

定義：「行動価値関数 Q(s, a)」を学習する「モデルフリー」の手法である。
更新式：数式の中に max Q(s’, a’) （次の状態での最大値）が含まれていればQ学習である。
用語：「Off-policy（オフ方策）」手法の代表例として名前が挙がる。

ひっかけ対策・注意点

× SARSAとの混同：
「実際に選択した行動を使って更新する」のはSARSA、「最大のQ値を使って更新する」のがQ学習です。
Qテーブルの限界：
状態や行動の数が少なければ「表（テーブル）」で管理できますが、囲碁や自動運転のように状態が無限にある場合はテーブルが作れません。そのため、Q関数をディープラーニング（ニューラルネットワーク）で近似するDQN（Deep Q-Network）へと発展します。