Web教科書

SGD

確率的勾配降下法 (SGD)

解説:千鳥足でゴールを目指す

確率的勾配降下法(SGD: Stochastic Gradient Descent)は、勾配降下法の一種ですが、計算に使うデータの量が違います。全データではなく、ランダムに選んだ「たった1つ」のデータだけを使って、パラメータを更新します。

通常の勾配降下法(バッチ学習)が「全員の意見を聞いてから慎重に一歩進む」のに対し、SGDは「通りすがりの一人の意見だけを聞いて、すぐ一歩進む」ようなものです。

なぜ「確率的(Stochastic)」なのか?
データをランダム(確率的)に選ぶため、進む方向が毎回微妙にブレるからです。
そのため、ゴール(最適解)に向かって一直線には進まず、ジグザグと蛇行しながら進みます。

メリットとデメリットの表裏一体

この「ジグザグな動き」には、良い面と悪い面があります。

特徴 解説
メリット
(局所解の脱出)
動きがランダムでノイズを含んでいるため、もし「偽物の谷底(局所最適解)」にハマっても、勢いで飛び出せる可能性があります。
また、1回の計算が非常に速く、メモリも少ししか使いません。
デメリット
(非効率な経路)
あっちへフラフラ、こっちへフラフラと進むため、ゴールまでの道のりが遠回りになり、収束(学習完了)までに時間がかかることがあります。

※現在では、これらの中間をとった「ミニバッチ学習(数十〜数百個のデータで更新)」が主流ですが、広義にはこれもSGDと呼ばれることが多いです。

G検定対策

出題ポイント

  • データの数:「ランダムに選んだ1つ(または少数)のデータ」で更新する手法。
  • 軌跡の特徴:最適解に向かって一直線ではなく、ジグザグに進む。
  • 利点:計算コストが低いことと、局所最適解(Local Optima)に陥りにくいこと。

ひっかけ対策

  • × 全データを使って正確に計算する
    (解説)誤りです。それは「バッチ勾配降下法(最急降下法)」の説明です。SGDは「確率的(ランダム)」に一部だけを使います。
  • × 常に最短ルートで収束する
    (解説)誤りです。ジグザグに進むため、距離的には遠回りになります(非効率)。しかし、それが罠(局所解)を避けるために役立ちます。
タイトルとURLをコピーしました