分類問題(Classification)
1. 解説
分類問題とは、入力されたデータが「どのグループ(カテゴリ・クラス)に属するか」を予測するタスクです。目的変数が「離散値(飛び飛びの値)」になるのが最大の特徴です。
例えば、「この写真は犬か猫か」「メールがスパムか正常か」といった判断を行います。回帰問題が「数値(量)」を当てるのに対し、分類問題は「ラベル(質)」を当てる問題と言えます。

分類問題の2つのタイプ
分類するクラスの数によって呼び方が変わります。
| タイプ | 説明 | 具体例 |
|---|---|---|
| 二値分類 (Binary Classification) |
「A か B か」の2択に分類する。 | ・コインの裏表 ・合格 か 不合格 ・スパム か 正常 |
| 多クラス分類 (Multi-class Classification) |
3つ以上のクラスに分類する。 | ・手書き数字(0〜9の10種類) ・じゃんけん(グー・チョキ・パー) ・アイリス(アヤメ)の品種分類 |
代表的なアルゴリズムと評価指標
- アルゴリズム:
- ロジスティック回帰:名前に「回帰」とつくが、実際は「分類」のための手法。
- サポートベクターマシン(SVM):データを分ける境界線(マージン)を最大化する手法。
- 決定木・ランダムフォレスト:条件分岐によってクラスを分ける手法。
- 評価指標:
- 正解率(Accuracy):全体のうち何個正解したか。
- 混同行列(Confusion Matrix):「適合率(Precision)」や「再現率(Recall)」など、正解率だけでは見えない精度を測るために使う表。
2. G検定対策
出題ポイント
- 回帰との違い:「家賃(数値)」を当てるなら回帰、「優良物件かどうか(ラベル)」を当てるなら分類。
- 離散値(Discrete Value):分類問題の答えは、0か1、あるいはAかBかCのように明確に区切られた値になる。
ひっかけ対策・注意点
- 【最重要】分類 vs クラスタリング:
どちらも「データをグループ分けする」点は同じですが、根本的に異なります。- 分類(教師あり学習):「これは猫、これは犬」という正解ラベルをもとに分ける。
- クラスタリング(教師なし学習):正解ラベルはなく、「なんとなく形が似ているもの」同士を勝手に集める(k-means法など)。
- ロジスティック回帰の分類:
「ロジスティック回帰を使って株価(数値)を予測した」という選択肢は間違いです。ロジスティック回帰は「株価が上がるか下がるか(二値分類)」などに使われます。
