Actor-Critic - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

Actor-Critic (アクター・クリティック)

解説

Actor-Criticとは、強化学習において「行動する人（Actor）」と「評価する人（Critic）」の2つの役割を分けて学習させる、ハイブリッドな手法です。

「選手」と「コーチ」の関係

この手法は、スポーツのトレーニングに例えると非常に分かりやすくなります。

役割	機能（中身）	スポーツでの例
Actor （アクター）	方策（Policy）現在の状態を見て、具体的な「行動」を決める。	「選手」実際に試合に出てプレイする人。
Critic （クリティック）	価値関数（Value）その行動が良かったかどうかを採点（評価）する。	「コーチ」プレイを見て「今の動きは良かった/悪かった」と指摘する人。

学習の仕組み：TD誤差

REINFORCE（方策勾配法）が「試合（エピソード）が全部終わってから」反省するのに対し、Actor-Criticは「1プレイ（1ステップ）ごとに」コーチ（Critic）が評価を下します。
この時、コーチが計算する「予想と結果のズレ」をTD誤差（Temporal Difference Error）と呼び、これを使って選手（Actor）の方策をリアルタイムに修正していきます。

G検定対策

出題ポイント

構造：「方策勾配法（Actor）」と「価値関数ベース（Critic）」を組み合わせた手法である。
更新：Criticが計算する「TD誤差（行動価値の予測誤差）」を用いて、ActorとCriticの両方を更新する。
メリット：REINFORCEに比べて、ステップごとに更新するため「学習のばらつき（分散）が小さい」。

よくあるひっかけ問題

× Actor-Criticは、GeneratorとDiscriminatorが競い合って学習する手法である
（解説）それは「GAN（敵対的生成ネットワーク）」の説明です。
- GAN：偽造者 vs 警察（騙し合い）
- Actor-Critic：選手 vs コーチ（協力関係）
この違いは超頻出です。
× Actor-Criticは、エピソードが終了するまで学習データを更新できない
（解説）できます。それがREINFORCE（モンテカルロ法）との最大の違いです。