次元削減(Dimensionality Reduction)
解説
次元削減とは、データが持っている情報の損失をできるだけ抑えながら、変数(特徴量)の数を減らしてデータを要約する手法です。
例えば、「身長」「体重」「座高」「足のサイズ」……といった多数のデータ(高次元)がある場合、それらをまとめて「体格」という新しい1つの指標(低次元)に圧縮するようなイメージです。
なぜ次元削減が必要なのか?:次元の呪い
AIにとって、データの項目数(次元)が多すぎることは必ずしも良いことではありません。次元が増えすぎると以下の問題が発生します。これを「次元の呪い」と呼びます。
- 計算コストの増大:学習に時間がかかりすぎる。
- データの希薄化:空間が広がりすぎて、データがスカスカになり、学習効率が落ちる。
- 過学習(Overfitting):モデルが複雑になりすぎて汎化性能が下がる。
- 可視化の困難:4次元以上のデータはグラフで描画できない(人間が理解できない)。
代表的な手法
目的やデータの性質によって使い分けます。
| 手法名 | タイプ・特徴 | G検定キーワード |
|---|---|---|
| 主成分分析 (PCA) |
教師なし学習 データの「分散(ばらつき)」が最大になる方向を見つけて、新しい軸を作る。 |
・分散最大化 ・第一主成分 ・寄与率 |
| t-SNE | 非線形な圧縮 高次元のデータを2次元や3次元に圧縮して可視化するのに優れている。 |
・可視化 ・近傍関係の保存 |
| 線形判別分析 (LDA) |
教師あり学習 「クラスを最もよく分離できる軸」を探す(分類の前処理向き)。 |
・教師あり ・クラス分類 |
G検定対策
出題ポイント
- 次元の呪い(Curse of Dimensionality):「次元が増えると学習に必要なデータ量が指数関数的に増え、効率が悪化する現象」の定義。
- 特徴抽出(Feature Extraction):次元削減は、元のデータをただ選ぶのではなく、計算によって「新しい特徴量」を作り出す手法であること。
- 寄与率(PCA):新しい軸(主成分)が、元のデータの情報をどれくらい説明できているかを表す指標。
ひっかけ対策・注意点
- 【最重要】「特徴量選択」との違い:
どちらも変数を減らす手法ですが、アプローチが異なります。- 特徴量選択(Selection):「身長・体重・座高」の中から「身長」だけを選ぶ(他は捨てる)。
- 次元削減(Extraction):「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
- PCAは教師なし、LDAは教師あり:
主成分分析(PCA)は正解ラベルを使わない「教師なし学習」ですが、線形判別分析(LDA)はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。
