線形回帰 (Linear Regression)
解説
線形回帰とは、データの傾向を最もよく表す「直線(または超平面)」を引き、その直線を使って未知の数値を予測する、最も基本的かつ強力な統計手法です。
単回帰と重回帰
予測に使うデータ(説明変数)の数によって、呼び方が変わります。
- 単回帰分析:「1つの原因」から結果を予測します。
(例:身長から体重を予測する。y = ax + b) - 重回帰分析:「複数の原因」から結果を予測します。
直線の引き方:最小二乗法
もっとも良い直線を引くために、実際のデータ点と直線のズレ(誤差)の二乗和を最小にする「最小二乗法」という計算手法が一般的に使われます。
注意点:多重共線性(マルチコ)
重回帰分析を行う際、説明変数同士に強い相関関係(例:「部屋の広さ」と「畳数」など、ほぼ同じ意味の変数)があると、計算が不安定になり正しい予測ができなくなります。この現象を多重共線性(マルチコ)と呼び、G検定では頻出のひっかけポイントです。
G検定対策
出題ポイント
- タスクの種類:「数値」を予測する「回帰タスク」であること。
- 学習手法:誤差を最小化するために「最小二乗法」が用いられる。
- 過学習対策:重み(係数)が大きくなりすぎるのを防ぐため、「正則化(ラッソ回帰・リッジ回帰)」という手法が使われることがある。
よくあるひっかけ問題
- × 線形回帰は、分類タスク(犬か猫かなど)に用いられる
(解説)線形回帰は「数値予測」です。分類には「ロジスティック回帰」や「サポートベクターマシン」を使います。 - × 重回帰分析では、説明変数が多ければ多いほど精度が上がる
(解説)多すぎると「多重共線性(マルチコ)」が発生したり、「過学習」を起こしたりするため、適切な変数選択が必要です。
