次元削減 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

次元削減（Dimensionality Reduction）

次元削減とは、データが持っている情報の損失をできるだけ抑えながら、変数（特徴量）の数を減らしてデータを要約する手法です。

例えば、「身長」「体重」「座高」「足のサイズ」……といった多数のデータ（高次元）がある場合、それらをまとめて「体格」という新しい1つの指標（低次元）に圧縮するようなイメージです。

AIにとって、データの項目数（次元）が多すぎることは必ずしも良いことではありません。次元が増えすぎると以下の問題が発生します。これを「次元の呪い」と呼びます。

目的やデータの性質によって使い分けます。

手法名	タイプ・特徴	G検定キーワード
主成分分析（PCA）	教師なし学習データの「分散（ばらつき）」が最大になる方向を見つけて、新しい軸を作る。	・分散最大化・第一主成分・寄与率
t-SNE	非線形な圧縮高次元のデータを2次元や3次元に圧縮して可視化するのに優れている。	・可視化・近傍関係の保存
線形判別分析（LDA）	教師あり学習「クラスを最もよく分離できる軸」を探す（分類の前処理向き）。	・教師あり・クラス分類

【最重要】「特徴量選択」との違い：
どちらも変数を減らす手法ですが、アプローチが異なります。
- 特徴量選択（Selection）：「身長・体重・座高」の中から「身長」だけを選ぶ（他は捨てる）。
- 次元削減（Extraction）：「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
PCAは教師なし、LDAは教師あり：
主成分分析（PCA）は正解ラベルを使わない「教師なし学習」ですが、線形判別分析（LDA）はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。