次元削減 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

次元削減（Dimensionality Reduction）

次元削減とは、膨大なデータ（高次元）から、情報の損失をできるだけ抑えつつ、本質的な特徴だけを抜き出してデータをコンパクトに凝縮（低次元化）する処理のことです。

データには「ノイズ」や「あまり重要でない情報」がたくさん含まれています。これらを削ぎ落とし、「つまりどういうこと？」というエッセンス（特徴量）だけを残す作業と言えます。

📚 例：分厚い小説の要約
1000ページの小説（高次元データ）を読むのは大変です。
しかし、「あらすじ（低次元データ）」にまとめれば、細かい描写は消えますが、物語の核心（本質的な特徴）は理解できます。
次元削減は、AIにとっての「あらすじ作り」のようなものです。

データの項目（次元）が増えすぎると、学習に必要なデータ量が爆発的に増え、AIがパターンを見つけられなくなる「次元の呪い」という現象が起きえます。これを避けるために次元削減を行います。

次元削減には大きく分けて「線形」と「非線形」のアプローチがあり、ここが試験の分かれ目です。

手法	タイプ	特徴
主成分分析（PCA）	線形 (Linear)	データを「直線の軸」で捉えて圧縮する。単純なデータの圧縮には強いが、複雑に曲がりくねったデータ構造は捉えきれない。
オートエンコーダ	非線形 (Non-linear)	ニューラルネットワークの「活性化関数」を使うことで、複雑なカーブを描くようなデータ分布も捉えて圧縮できる。より高度な特徴抽出が可能。

※他にも可視化に適したt-SNEなどがあります。

【最重要】「特徴量選択」との違い：
どちらも変数を減らす手法ですが、アプローチが異なります。
- 特徴量選択（Selection）：「身長・体重・座高」の中から「身長」だけを選ぶ（他は捨てる）。
- 次元削減（Extraction）：「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
PCAは教師なし、LDAは教師あり：
主成分分析（PCA）は正解ラベルを使わない「教師なし学習」ですが、線形判別分析（LDA）はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。