次元削減(Dimensionality Reduction)
解説:情報の「断捨離」と「要約」
次元削減とは、膨大なデータ(高次元)から、情報の損失をできるだけ抑えつつ、本質的な特徴だけを抜き出してデータをコンパクトに凝縮(低次元化)する処理のことです。
データには「ノイズ」や「あまり重要でない情報」がたくさん含まれています。これらを削ぎ落とし、「つまりどういうこと?」というエッセンス(特徴量)だけを残す作業と言えます。
📚 例:分厚い小説の要約
1000ページの小説(高次元データ)を読むのは大変です。
しかし、「あらすじ(低次元データ)」にまとめれば、細かい描写は消えますが、物語の核心(本質的な特徴)は理解できます。
次元削減は、AIにとっての「あらすじ作り」のようなものです。
1000ページの小説(高次元データ)を読むのは大変です。
しかし、「あらすじ(低次元データ)」にまとめれば、細かい描写は消えますが、物語の核心(本質的な特徴)は理解できます。
次元削減は、AIにとっての「あらすじ作り」のようなものです。
なぜ次元を減らすのか?:次元の呪い
データの項目(次元)が増えすぎると、学習に必要なデータ量が爆発的に増え、AIがパターンを見つけられなくなる「次元の呪い」という現象が起きえます。これを避けるために次元削減を行います。
主成分分析 (PCA) vs オートエンコーダ
次元削減には大きく分けて「線形」と「非線形」のアプローチがあり、ここが試験の分かれ目です。
| 手法 | タイプ | 特徴 |
|---|---|---|
| 主成分分析 (PCA) |
線形 (Linear) |
データを「直線の軸」で捉えて圧縮する。 単純なデータの圧縮には強いが、複雑に曲がりくねったデータ構造は捉えきれない。 |
| オートエンコーダ | 非線形 (Non-linear) |
ニューラルネットワークの「活性化関数」を使うことで、複雑なカーブを描くようなデータ分布も捉えて圧縮できる。 より高度な特徴抽出が可能。 |
※他にも可視化に適したt-SNEなどがあります。
G検定対策
出題ポイント
- 次元の呪い(Curse of Dimensionality):「次元が増えると学習に必要なデータ量が指数関数的に増え、効率が悪化する現象」の定義。
- 特徴抽出(Feature Extraction):次元削減は、元のデータをただ選ぶのではなく、計算によって「新しい特徴量」を作り出す手法であること。
- 寄与率(PCA):新しい軸(主成分)が、元のデータの情報をどれくらい説明できているかを表す指標。
ひっかけ対策・注意点
- 【最重要】「特徴量選択」との違い:
どちらも変数を減らす手法ですが、アプローチが異なります。- 特徴量選択(Selection):「身長・体重・座高」の中から「身長」だけを選ぶ(他は捨てる)。
- 次元削減(Extraction):「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
- PCAは教師なし、LDAは教師あり:
主成分分析(PCA)は正解ラベルを使わない「教師なし学習」ですが、線形判別分析(LDA)はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。
