回帰問題(Regression)
1. 解説
回帰問題とは、入力データをもとに「連続的な数値」を予測するタスクのことです。
例えば、「駅からの距離」や「築年数」といったデータ(説明変数)から、「家賃(〇〇円)」という数値(目的変数)を予測するのが回帰問題です。「AかBか」を当てるのではなく、「どのくらいの量・値になるか」を当てる問題と言えます。

「回帰」と「分類」の決定的な違い
機械学習のタスクは大きく分けて「回帰」と「分類」の2つがあります。G検定ではこの違いが頻出です。
| タスク名 | 予測対象(目的変数) | 具体例 |
|---|---|---|
| 回帰 (Regression) |
連続値 (量、金額、温度、時間など) |
・明日の気温は何度か? ・この物件の家賃はいくらか? ・来月の売上は何円か? |
| 分類 (Classification) |
離散値(カテゴリ) (ラベル、クラス) |
・この画像は犬か猫か? ・メールはスパムか否か? ・試験に合格か不合格か? |
主なアルゴリズムと評価指標
回帰問題でよく使われる手法や、精度の測り方(評価指標)もセットで覚えておきましょう。
- 代表的なアルゴリズム:
- 線形回帰(Linear Regression):データを直線で近似する最も基本的な手法。
- ラッソ(Lasso)回帰・リッジ(Ridge)回帰:線形回帰に「正則化」を加えて過学習を防ぐ手法。
- 評価指標(誤差関数):
- MSE(平均二乗誤差):誤差を2乗して平均したもの。大きな誤差をより重く評価する。
- RMSE(二乗平均平方根誤差):MSEのルートをとったもの。元の単位と揃うため扱いやすい。
2. G検定対策
出題ポイント
- 定義の理解:「回帰」とは「連続的な数値を予測すること」という定義を即答できるようにする。
- 用語の対応:予測の手がかりとなるデータを「説明変数(特徴量)」、予測したいデータを「目的変数」と呼ぶ。
- 単回帰と重回帰:説明変数が1つの場合を「単回帰」、2つ以上の場合を「重回帰」と呼ぶ。
ひっかけ対策・注意点
- 最重要ひっかけワード「ロジスティック回帰」:
名前に「回帰」とついていますが、これは「分類」のためのアルゴリズムです(確率を計算して0か1に分類するため)。G検定で最もよく出るひっかけの一つです。 - 混同注意:
「天気を予測する」という文脈でも、「気温(25.5℃)」を当てるなら回帰、「天気(晴れ/雨)」を当てるなら分類になります。何を予測するかによってタスクが変わる点に注意してください。
