Web教科書

REINFORCE

REINFORCE (Monte Carlo Policy Gradient)

解説

REINFORCEとは、方策勾配法の中でも最も基礎的なアルゴリズムで、モンテカルロ法ベースの学習手法です。

「テストが終わってから、まとめて見直す」

REINFORCEの最大の特徴は、学習(パラメータ更新)のタイミングです。

  • TD法(Q学習・Actor-Criticなど):
    「1問解くごとに答え合わせ」をして、即座に反省・修正します。
  • REINFORCE(モンテカルロ法):
    「テストを最後まで解き終わって点数が出てから」、まとめて「あの時の回答は良かった/悪かった」と振り返ります。

つまり、ゲーム開始から終了(エピソード完了)までを一通り行い、最終的に得られた「総報酬(収益)」を使って、その一連の行動が良かったかどうかを判断し、方策を更新します。

メリットとデメリット

  • メリット:価値関数(Critic)を学習する必要がなく、仕組みがシンプル(方策 π だけを学習する)。
  • デメリット:エピソードが終わるまで学習が進まないため時間がかかる。また、たまたま運良く勝ったり負けたりする要素(ノイズ)の影響をモロに受けるため、学習のばらつき(分散)が大きい

REINFORCEのアルゴリズム概要


G検定対策

出題ポイント

  • 分類:「モデルフリー」な「方策勾配法」である。
  • 手法:「モンテカルロ法」を用いるため、エピソードが終了するまでパラメータの更新が行われない
  • 構成:基本的には「方策(Policy)」のみをニューラルネットワークで近似し、価値関数は作らない。(※分散を減らすためにベースラインとして価値関数を使う工夫もあるが、基本形は方策のみ)。

よくあるひっかけ問題

  • × REINFORCEは、1ステップごとに行動した直後に学習を行う(TD法)
    (解説)違います。エピソード終了後に行うのがモンテカルロ法(REINFORCE)の特徴です。逐次行うのはActor-Criticなどです。
  • × Actor-Criticの一種である
    (解説)REINFORCEはActor(方策)だけで学習します。Critic(価値関数)による評価を行わないため、Actor-Criticではありません。
タイトルとURLをコピーしました