Web教科書

方策勾配法

方策勾配法 (Policy Gradient Method)

解説

方策勾配法とは、強化学習において、エージェントの行動指針である「方策(Policy:パイ π)」を、ニューラルネットワークなどのパラメータで直接表現し、報酬が増える方向にそのパラメータを少しずつ調整(勾配上昇)していく手法です。

「価値」ではなく「動き」を直接学習する

Q学習(価値ベース)との違いをイメージしてみましょう。

手法 イメージ 得意なこと
価値ベース
(DQNなど)
「地図(Qテーブル)」を見て、点数の高いルートを選ぶ。
間接的。
迷路や将棋など、行動がハッキリ決まっている(離散的)場合。
方策ベース
(方策勾配法)
「筋肉の動かし方」を直接調整する。
「もっと右に傾けた方が良かったな」と修正する。
ロボットアームの角度調整(連続値)や、あえてランダムに動く必要がある場合。

最大のメリット:連続値と確率的方策

方策勾配法は、「連続的な行動空間」を扱えるのが最大の強みです。
例えばロボットアームの角度を「30.5度」にする場合、Q学習では「30度」「31度」と細かく区切る必要がありますが、方策勾配法ならズバリその数値を出すように学習できます。

代表的なアルゴリズム

  • REINFORCEエピソードが最後まで終わってから、結果(報酬)を見て方策を更新する基本的な手法。
  • Actor-Critic(アクター・クリティック)「方策勾配法(Actor)」と「価値ベース(Critic)」を組み合わせたハイブリッド手法。現在主流の多くはこれに基づいています。

G検定対策

出題ポイント

  • 定義:方策 π のパラメータ θ を、期待報酬が最大化するように「勾配法」で直接更新する。
  • メリット:連続値の行動(ロボット制御など)や、確率的な行動(じゃんけんのランダム戦略など)を学習できる。
  • 関連手法:REINFORCE、Actor-Critic、A3Cなどが方策勾配法の発展形である。

よくあるひっかけ問題

  • × 方策勾配法は、行動価値関数 Q(s,a) の値を最大化するように行動を選択する手法である
    (解説)それは「Q学習(価値ベース)」の説明です。方策勾配法はQ値を経由せず、方策のパラメータそのものをいじります。
  • × 方策勾配法は、離散的な行動(上下左右など)しか扱えない
    (解説)逆です。連続的な行動(アナログな数値)を扱えるのが最大の特徴です。
タイトルとURLをコピーしました