ポリシー勾配法と最新アルゴリズム
解説:反射神経を鍛える「ポリシー勾配法」
DQNのような「価値ベース」の手法は、全ての行動の点数(Q値)を計算してから一番高いものを選んでいました。しかし、これでは「ロボットアームの角度を0.1度調整する」といった連続的な動作(Continuous Control)には対応しきれません(選択肢が無限にあるため)。
そこで登場するのが「方策勾配法(Policy Gradient)」です。
点数計算を挟まず、状況(入力)に対して「こう動け!」という確率(出力)を出すネットワーク(方策関数)を直接訓練します。いわば、いちいち計算して考えるのではなく、「熟練の反射神経」を鍛えるようなイメージです。
進化するアルゴリズムたち
ポリシー勾配法をベースに、さらに学習を安定・高速化させた手法が次々と開発されています。
| 手法名 | 正式名称・特徴 |
|---|---|
| A3C | Asynchronous Advantage Actor-Critic 「複数のAI(Worker)」を並列に動かし、それぞれの経験を非同期に持ち寄って1つの脳(Global Network)を更新する手法。学習速度が爆発的に速くなりました。 |
| PPO | Proximal Policy Optimization OpenAIが開発。「一度に急激に学習しすぎて設定がおかしくなる」のを防ぐため、更新幅に制限(クリッピング)をかけた手法。安定性が高く、現在の実質的な標準(デファクトスタンダード)です。 |
最強のAIエージェントたち
これらの技術や、複数のAIを戦わせる「マルチエージェント強化学習」を駆使して生まれた、歴史的なAIたちです。
👾 Agent57 (DeepMind)
- 偉業: Atariのゲーム全57種類すべてにおいて、人間の平均スコアを超えた初のエージェント。
- 技術: DQNの系譜ですが、「好奇心(新しい画面を見たい欲求)」を内部報酬として組み込むことで、非常に難易度の高い探索ゲームもクリアしました。
⚔️ OpenAI Five (OpenAI)
- 偉業: 複雑な連携が必要なオンラインゲーム『Dota 2』で、世界チャンピオンチームに勝利。
- 技術: PPOの大規模並列学習と、LSTM(記憶)を使用。5体のAIがチームとして連携するマルチエージェント強化学習の成功例。
🌌 AlphaStar (DeepMind)
- 偉業: 戦略ゲーム『StarCraft II』でグランドマスター(トップ0.2%)レベルに到達。
- 技術: 人間のリプレイ学習に加え、AI同士を戦わせる「リーグ学習」を採用。じゃんけんのように相性の異なる戦略を多数学習させ、弱点のないAIを作り上げました。
G検定対策
出題ポイント
- 連続値制御:「ロボットアームの角度制御」や「自動運転のハンドル操作」など、出力が連続的な値になるタスクには、DQN(離散値)ではなくポリシー勾配法(またはActor-Critic)が適している。
- A3C:キーワードは「非同期(Asynchronous)」と「並列処理」。
- AlphaStar / OpenAI Five:ゲーム名と、それが「マルチエージェント」や「不完全情報ゲーム」の攻略例であることを結びつける。
ひっかけ対策
- × ロボット制御にはDQNが最適である
(解説)DQNは「右、左、上」のようなボタン入力(離散値)は得意ですが、スムーズな角度調整(連続値)は苦手です。 - × A3Cは1つのエージェントで学習する
(解説)複数のワーカー(分身)を使って並列に行います。
