方策勾配法 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

方策勾配法 (Policy Gradient Method)

方策勾配法とは、強化学習において、エージェントの行動指針である「方策（Policy：パイ π）」を、ニューラルネットワークなどのパラメータで直接表現し、報酬が増える方向にそのパラメータを少しずつ調整（勾配上昇）していく手法です。

Q学習（価値ベース）との違いをイメージしてみましょう。

手法	イメージ	得意なこと
価値ベース（DQNなど）	「地図（Qテーブル）」を見て、点数の高いルートを選ぶ。間接的。	迷路や将棋など、行動がハッキリ決まっている（離散的）場合。
方策ベース（方策勾配法）	「筋肉の動かし方」を直接調整する。「もっと右に傾けた方が良かったな」と修正する。	ロボットアームの角度調整（連続値）や、あえてランダムに動く必要がある場合。

方策勾配法は、「連続的な行動空間」を扱えるのが最大の強みです。
例えばロボットアームの角度を「30.5度」にする場合、Q学習では「30度」「31度」と細かく区切る必要がありますが、方策勾配法ならズバリその数値を出すように学習できます。

REINFORCE：エピソードが最後まで終わってから、結果（報酬）を見て方策を更新する基本的な手法。
Actor-Critic（アクター・クリティック）：「方策勾配法（Actor）」と「価値ベース（Critic）」を組み合わせたハイブリッド手法。現在主流の多くはこれに基づいています。

× 方策勾配法は、行動価値関数 Q(s,a) の値を最大化するように行動を選択する手法である
（解説）それは「Q学習（価値ベース）」の説明です。方策勾配法はQ値を経由せず、方策のパラメータそのものをいじります。
× 方策勾配法は、離散的な行動（上下左右など）しか扱えない
（解説）逆です。連続的な行動（アナログな数値）を扱えるのが最大の特徴です。