Web教科書

最適化アルゴリズム

最適化手法(Momentum / AdaGrad / RMSprop / Adam)

解説

SGD(確率的勾配降下法)の「ジグザグに進む」「学習率の調整が難しい」といった弱点を克服するために、様々な最適化手法が提案されてきました。

  • Momentum(モーメンタム):
    勾配に「慣性(勢い)」を加える手法。坂道を転がるボールのように、谷底に向かって加速し、小さなデコボコ(局所最適解)を勢いで乗り越えやすくします。
  • AdaGrad(アダグラッド):
    パラメータごとに学習率を個別に調整します。「あまり更新されていない重み(レアな特徴)」は大きく動かし、「頻繁に更新される重み」は小さく動かします。
    ※ただし、学習が進むと学習率が限りなくゼロに近づき、途中で学習が停止してしまう欠点があります。
  • RMSprop:
    AdaGradの「学習が止まる」欠点を修正した手法。過去の勾配を「指数移動平均」で管理し、古い情報を忘れながら学習率を調整します。
  • Adam(アダム):
    「Momentum(慣性)」「RMSprop(学習率の自動調整)」のいいとこ取りをした手法。現在、ディープラーニングで最も標準的に使われています。

G検定対策

出題ポイント

  • Momentum:「前回の更新量」を利用した「慣性(勢い)」項を持つ。
  • AdaGrad:パラメータごとに学習率を変える(Adaptive)が、学習が進むと学習率が0になり停止する欠点がある。
  • Adam:MomentumとRMSpropを組み合わせた現在最も普及している手法。

ひっかけ対策

  • × AdaGradは学習が進むほど学習率が大きくなる
    (解説)誤りです。分母に勾配の二乗和が蓄積されるため、学習率は単調に小さくなります。
  • × Adamはハイパーパラメータを全く調整する必要がない
    (解説)誤りです。デフォルト設定で優秀なことが多いですが、学習率などは調整が必要な場合があります。
タイトルとURLをコピーしました