最適化アルゴリズム

2026.01.182026.02.15

最適化手法（Momentum / AdaGrad / RMSprop / Adam）

解説

SGD（確率的勾配降下法）の「ジグザグに進む」「学習率の調整が難しい」といった弱点を克服するために、様々な最適化手法が提案されてきました。

Momentum（モーメンタム）：
勾配に「慣性（勢い）」を加える手法。坂道を転がるボールのように、谷底に向かって加速し、小さなデコボコ（局所最適解）を勢いで乗り越えやすくします。
AdaGrad（アダグラッド）：
パラメータごとに学習率を個別に調整します。「あまり更新されていない重み（レアな特徴）」は大きく動かし、「頻繁に更新される重み」は小さく動かします。
※ただし、学習が進むと学習率が限りなくゼロに近づき、途中で学習が停止してしまう欠点があります。
RMSprop：
AdaGradの「学習が止まる」欠点を修正した手法。過去の勾配を「指数移動平均」で管理し、古い情報を忘れながら学習率を調整します。
Adam（アダム）：
「Momentum（慣性）」と「RMSprop（学習率の自動調整）」のいいとこ取りをした手法。現在、ディープラーニングで最も標準的に使われています。

G検定対策

出題ポイント

Momentum：「前回の更新量」を利用した「慣性（勢い）」項を持つ。
AdaGrad：パラメータごとに学習率を変える（Adaptive）が、学習が進むと学習率が0になり停止する欠点がある。
Adam：MomentumとRMSpropを組み合わせた現在最も普及している手法。

ひっかけ対策

× AdaGradは学習が進むほど学習率が大きくなる
（解説）誤りです。分母に勾配の二乗和が蓄積されるため、学習率は単調に小さくなります。
× Adamはハイパーパラメータを全く調整する必要がない
（解説）誤りです。デフォルト設定で優秀なことが多いですが、学習率などは調整が必要な場合があります。

前のキーワード SGD

次のキーワード局所最適解・大域最適解・鞍点

タイトルとURLをコピーしました