SGD - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

確率的勾配降下法 (SGD)

確率的勾配降下法（SGD: Stochastic Gradient Descent）は、勾配降下法の一種ですが、計算に使うデータの量が違います。全データではなく、ランダムに選んだ「たった1つ」のデータだけを使って、パラメータを更新します。

通常の勾配降下法（バッチ学習）が「全員の意見を聞いてから慎重に一歩進む」のに対し、SGDは「通りすがりの一人の意見だけを聞いて、すぐ一歩進む」ようなものです。

なぜ「確率的（Stochastic）」なのか？
データをランダム（確率的）に選ぶため、進む方向が毎回微妙にブレるからです。
そのため、ゴール（最適解）に向かって一直線には進まず、ジグザグと蛇行しながら進みます。

この「ジグザグな動き」には、良い面と悪い面があります。

特徴	解説
メリット (局所解の脱出)	動きがランダムでノイズを含んでいるため、もし「偽物の谷底（局所最適解）」にハマっても、勢いで飛び出せる可能性があります。また、1回の計算が非常に速く、メモリも少ししか使いません。
デメリット (非効率な経路)	あっちへフラフラ、こっちへフラフラと進むため、ゴールまでの道のりが遠回りになり、収束（学習完了）までに時間がかかることがあります。

※現在では、これらの中間をとった「ミニバッチ学習（数十〜数百個のデータで更新）」が主流ですが、広義にはこれもSGDと呼ばれることが多いです。

× 全データを使って正確に計算する
（解説）誤りです。それは「バッチ勾配降下法（最急降下法）」の説明です。SGDは「確率的（ランダム）」に一部だけを使います。
× 常に最短ルートで収束する
（解説）誤りです。ジグザグに進むため、距離的には遠回りになります（非効率）。しかし、それが罠（局所解）を避けるために役立ちます。