Web教科書

Actor-Critic

Actor-Critic (アクター・クリティック)

解説

Actor-Criticとは、強化学習において「行動する人(Actor)」と「評価する人(Critic)」の2つの役割を分けて学習させる、ハイブリッドな手法です。

「選手」と「コーチ」の関係

この手法は、スポーツのトレーニングに例えると非常に分かりやすくなります。

役割 機能(中身) スポーツでの例
Actor
(アクター)
方策(Policy)
現在の状態を見て、具体的な「行動」を決める。
「選手」
実際に試合に出てプレイする人。
Critic
(クリティック)
価値関数(Value)
その行動が良かったかどうかを採点(評価)する。
「コーチ」
プレイを見て「今の動きは良かった/悪かった」と指摘する人。

学習の仕組み:TD誤差

REINFORCE(方策勾配法)が「試合(エピソード)が全部終わってから」反省するのに対し、Actor-Criticは「1プレイ(1ステップ)ごとに」コーチ(Critic)が評価を下します。
この時、コーチが計算する「予想と結果のズレ」をTD誤差(Temporal Difference Error)と呼び、これを使って選手(Actor)の方策をリアルタイムに修正していきます。


G検定対策

出題ポイント

  • 構造:方策勾配法(Actor)」と「価値関数ベース(Critic)」を組み合わせた手法である。
  • 更新:Criticが計算する「TD誤差(行動価値の予測誤差)」を用いて、ActorとCriticの両方を更新する。
  • メリット:REINFORCEに比べて、ステップごとに更新するため「学習のばらつき(分散)が小さい」

よくあるひっかけ問題

  • × Actor-Criticは、GeneratorとDiscriminatorが競い合って学習する手法である
    (解説)それはGAN(敵対的生成ネットワーク)の説明です。

    • GAN:偽造者 vs 警察(騙し合い)
    • Actor-Critic:選手 vs コーチ(協力関係)

    この違いは超頻出です。

  • × Actor-Criticは、エピソードが終了するまで学習データを更新できない
    (解説)できます。それがREINFORCE(モンテカルロ法)との最大の違いです。
タイトルとURLをコピーしました