Actor-Critic (アクター・クリティック)
解説
Actor-Criticとは、強化学習において「行動する人(Actor)」と「評価する人(Critic)」の2つの役割を分けて学習させる、ハイブリッドな手法です。
「選手」と「コーチ」の関係
この手法は、スポーツのトレーニングに例えると非常に分かりやすくなります。
| 役割 | 機能(中身) | スポーツでの例 |
|---|---|---|
| Actor (アクター) |
方策(Policy) 現在の状態を見て、具体的な「行動」を決める。 |
「選手」 実際に試合に出てプレイする人。 |
| Critic (クリティック) |
価値関数(Value) その行動が良かったかどうかを採点(評価)する。 |
「コーチ」 プレイを見て「今の動きは良かった/悪かった」と指摘する人。 |
学習の仕組み:TD誤差
REINFORCE(方策勾配法)が「試合(エピソード)が全部終わってから」反省するのに対し、Actor-Criticは「1プレイ(1ステップ)ごとに」コーチ(Critic)が評価を下します。
この時、コーチが計算する「予想と結果のズレ」をTD誤差(Temporal Difference Error)と呼び、これを使って選手(Actor)の方策をリアルタイムに修正していきます。
G検定対策
出題ポイント
- 構造:「方策勾配法(Actor)」と「価値関数ベース(Critic)」を組み合わせた手法である。
- 更新:Criticが計算する「TD誤差(行動価値の予測誤差)」を用いて、ActorとCriticの両方を更新する。
- メリット:REINFORCEに比べて、ステップごとに更新するため「学習のばらつき(分散)が小さい」。
よくあるひっかけ問題
- × Actor-Criticは、GeneratorとDiscriminatorが競い合って学習する手法である
(解説)それは「GAN(敵対的生成ネットワーク)」の説明です。- GAN:偽造者 vs 警察(騙し合い)
- Actor-Critic:選手 vs コーチ(協力関係)
この違いは超頻出です。
- × Actor-Criticは、エピソードが終了するまで学習データを更新できない
(解説)できます。それがREINFORCE(モンテカルロ法)との最大の違いです。
