Web教科書

ポリシー勾配法と最新アルゴリズム

ポリシー勾配法と最新アルゴリズム

解説:反射神経を鍛える「ポリシー勾配法」

DQNのような「価値ベース」の手法は、全ての行動の点数(Q値)を計算してから一番高いものを選んでいました。しかし、これでは「ロボットアームの角度を0.1度調整する」といった連続的な動作(Continuous Control)には対応しきれません(選択肢が無限にあるため)。

そこで登場するのが方策勾配法(Policy Gradient)」です。
点数計算を挟まず、状況(入力)に対して「こう動け!」という確率(出力)を出すネットワーク(方策関数)を直接訓練します。いわば、いちいち計算して考えるのではなく、「熟練の反射神経」を鍛えるようなイメージです。

進化するアルゴリズムたち

ポリシー勾配法をベースに、さらに学習を安定・高速化させた手法が次々と開発されています。

手法名 正式名称・特徴
A3C Asynchronous Advantage Actor-Critic
「複数のAI(Worker)」を並列に動かし、それぞれの経験を非同期に持ち寄って1つの脳(Global Network)を更新する手法。学習速度が爆発的に速くなりました。
PPO Proximal Policy Optimization
OpenAIが開発。「一度に急激に学習しすぎて設定がおかしくなる」のを防ぐため、更新幅に制限(クリッピング)をかけた手法。安定性が高く、現在の実質的な標準(デファクトスタンダード)です。

最強のAIエージェントたち

これらの技術や、複数のAIを戦わせる「マルチエージェント強化学習」を駆使して生まれた、歴史的なAIたちです。

👾 Agent57 (DeepMind)

  • 偉業: Atariのゲーム全57種類すべてにおいて、人間の平均スコアを超えた初のエージェント。
  • 技術: DQNの系譜ですが、「好奇心(新しい画面を見たい欲求)」を内部報酬として組み込むことで、非常に難易度の高い探索ゲームもクリアしました。
⚔️ OpenAI Five (OpenAI)

  • 偉業: 複雑な連携が必要なオンラインゲーム『Dota 2』で、世界チャンピオンチームに勝利。
  • 技術: PPOの大規模並列学習と、LSTM(記憶)を使用。5体のAIがチームとして連携するマルチエージェント強化学習の成功例。
🌌 AlphaStar (DeepMind)

  • 偉業: 戦略ゲーム『StarCraft II』でグランドマスター(トップ0.2%)レベルに到達。
  • 技術: 人間のリプレイ学習に加え、AI同士を戦わせる「リーグ学習」を採用。じゃんけんのように相性の異なる戦略を多数学習させ、弱点のないAIを作り上げました。

G検定対策

出題ポイント

  • 連続値制御:「ロボットアームの角度制御」や「自動運転のハンドル操作」など、出力が連続的な値になるタスクには、DQN(離散値)ではなくポリシー勾配法(またはActor-Critic)が適している。
  • A3C:キーワードは「非同期(Asynchronous)」「並列処理」
  • AlphaStar / OpenAI Five:ゲーム名と、それが「マルチエージェント」や「不完全情報ゲーム」の攻略例であることを結びつける。

ひっかけ対策

  • × ロボット制御にはDQNが最適である
    (解説)DQNは「右、左、上」のようなボタン入力(離散値)は得意ですが、スムーズな角度調整(連続値)は苦手です。
  • × A3Cは1つのエージェントで学習する
    (解説)複数のワーカー(分身)を使って並列に行います。
タイトルとURLをコピーしました