方策勾配法 (Policy Gradient Method)
解説
方策勾配法とは、強化学習において、エージェントの行動指針である「方策(Policy:パイ π)」を、ニューラルネットワークなどのパラメータで直接表現し、報酬が増える方向にそのパラメータを少しずつ調整(勾配上昇)していく手法です。
「価値」ではなく「動き」を直接学習する
Q学習(価値ベース)との違いをイメージしてみましょう。
| 手法 | イメージ | 得意なこと |
|---|---|---|
| 価値ベース (DQNなど) |
「地図(Qテーブル)」を見て、点数の高いルートを選ぶ。 間接的。 |
迷路や将棋など、行動がハッキリ決まっている(離散的)場合。 |
| 方策ベース (方策勾配法) |
「筋肉の動かし方」を直接調整する。 「もっと右に傾けた方が良かったな」と修正する。 |
ロボットアームの角度調整(連続値)や、あえてランダムに動く必要がある場合。 |
最大のメリット:連続値と確率的方策
方策勾配法は、「連続的な行動空間」を扱えるのが最大の強みです。
例えばロボットアームの角度を「30.5度」にする場合、Q学習では「30度」「31度」と細かく区切る必要がありますが、方策勾配法ならズバリその数値を出すように学習できます。
代表的なアルゴリズム
- REINFORCE:エピソードが最後まで終わってから、結果(報酬)を見て方策を更新する基本的な手法。
- Actor-Critic(アクター・クリティック):「方策勾配法(Actor)」と「価値ベース(Critic)」を組み合わせたハイブリッド手法。現在主流の多くはこれに基づいています。
G検定対策
出題ポイント
- 定義:方策 π のパラメータ θ を、期待報酬が最大化するように「勾配法」で直接更新する。
- メリット:連続値の行動(ロボット制御など)や、確率的な行動(じゃんけんのランダム戦略など)を学習できる。
- 関連手法:REINFORCE、Actor-Critic、A3Cなどが方策勾配法の発展形である。
よくあるひっかけ問題
- × 方策勾配法は、行動価値関数 Q(s,a) の値を最大化するように行動を選択する手法である
(解説)それは「Q学習(価値ベース)」の説明です。方策勾配法はQ値を経由せず、方策のパラメータそのものをいじります。 - × 方策勾配法は、離散的な行動(上下左右など)しか扱えない
(解説)逆です。連続的な行動(アナログな数値)を扱えるのが最大の特徴です。
