ポリシー勾配法と最新アルゴリズム

DQNのような「価値ベース」の手法は、全ての行動の点数（Q値）を計算してから一番高いものを選んでいました。しかし、これでは「ロボットアームの角度を0.1度調整する」といった連続的な動作（Continuous Control）には対応しきれません（選択肢が無限にあるため）。

そこで登場するのが「方策勾配法（Policy Gradient）」です。
点数計算を挟まず、状況（入力）に対して「こう動け！」という確率（出力）を出すネットワーク（方策関数）を直接訓練します。いわば、いちいち計算して考えるのではなく、「熟練の反射神経」を鍛えるようなイメージです。

ポリシー勾配法をベースに、さらに学習を安定・高速化させた手法が次々と開発されています。

手法名	正式名称・特徴
A3C	Asynchronous Advantage Actor-Critic 「複数のAI（Worker）」を並列に動かし、それぞれの経験を非同期に持ち寄って1つの脳（Global Network）を更新する手法。学習速度が爆発的に速くなりました。
PPO	Proximal Policy Optimization OpenAIが開発。「一度に急激に学習しすぎて設定がおかしくなる」のを防ぐため、更新幅に制限（クリッピング）をかけた手法。安定性が高く、現在の実質的な標準（デファクトスタンダード）です。

これらの技術や、複数のAIを戦わせる「マルチエージェント強化学習」を駆使して生まれた、歴史的なAIたちです。

👾 Agent57 (DeepMind)

⚔️ OpenAI Five (OpenAI)

🌌 AlphaStar (DeepMind)

偉業： 戦略ゲーム『StarCraft II』でグランドマスター（トップ0.2%）レベルに到達。
技術： 人間のリプレイ学習に加え、AI同士を戦わせる「リーグ学習」を採用。じゃんけんのように相性の異なる戦略を多数学習させ、弱点のないAIを作り上げました。

連続値制御：「ロボットアームの角度制御」や「自動運転のハンドル操作」など、出力が連続的な値になるタスクには、DQN（離散値）ではなくポリシー勾配法（またはActor-Critic）が適している。
A3C：キーワードは「非同期（Asynchronous）」と「並列処理」。
AlphaStar / OpenAI Five：ゲーム名と、それが「マルチエージェント」や「不完全情報ゲーム」の攻略例であることを結びつける。

× ロボット制御にはDQNが最適である
（解説）DQNは「右、左、上」のようなボタン入力（離散値）は得意ですが、スムーズな角度調整（連続値）は苦手です。
× A3Cは1つのエージェントで学習する
（解説）複数のワーカー（分身）を使って並列に行います。