Web教科書

次元削減

次元削減(Dimensionality Reduction)

解説:情報の「断捨離」と「要約」

次元削減とは、膨大なデータ(高次元)から、情報の損失をできるだけ抑えつつ、本質的な特徴だけを抜き出してデータをコンパクトに凝縮(低次元化)する処理のことです。

データには「ノイズ」や「あまり重要でない情報」がたくさん含まれています。これらを削ぎ落とし、「つまりどういうこと?」というエッセンス(特徴量)だけを残す作業と言えます。

📚 例:分厚い小説の要約
1000ページの小説(高次元データ)を読むのは大変です。
しかし、「あらすじ(低次元データ)」にまとめれば、細かい描写は消えますが、物語の核心(本質的な特徴)は理解できます。
次元削減は、AIにとっての「あらすじ作り」のようなものです。

なぜ次元を減らすのか?:次元の呪い

データの項目(次元)が増えすぎると、学習に必要なデータ量が爆発的に増え、AIがパターンを見つけられなくなる次元の呪いという現象が起きえます。これを避けるために次元削減を行います。

主成分分析 (PCA) vs オートエンコーダ

次元削減には大きく分けて「線形」と「非線形」のアプローチがあり、ここが試験の分かれ目です。

手法 タイプ 特徴
主成分分析
(PCA)
線形
(Linear)
データを「直線の軸」で捉えて圧縮する。
単純なデータの圧縮には強いが、複雑に曲がりくねったデータ構造は捉えきれない。
オートエンコーダ 非線形
(Non-linear)
ニューラルネットワークの「活性化関数」を使うことで、複雑なカーブを描くようなデータ分布も捉えて圧縮できる。
より高度な特徴抽出が可能。

※他にも可視化に適したt-SNEなどがあります。


G検定対策

出題ポイント

  • 次元の呪い(Curse of Dimensionality):「次元が増えると学習に必要なデータ量が指数関数的に増え、効率が悪化する現象」の定義。
  • 特徴抽出(Feature Extraction):次元削減は、元のデータをただ選ぶのではなく、計算によって「新しい特徴量」を作り出す手法であること。
  • 寄与率(PCA):新しい軸(主成分)が、元のデータの情報をどれくらい説明できているかを表す指標。

ひっかけ対策・注意点

  • 【最重要】「特徴量選択」との違い:
    どちらも変数を減らす手法ですが、アプローチが異なります。

    • 特徴量選択(Selection):「身長・体重・座高」の中から「身長」だけを選ぶ(他は捨てる)。
    • 次元削減(Extraction):「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
  • PCAは教師なし、LDAは教師あり:
    主成分分析(PCA)は正解ラベルを使わない「教師なし学習」ですが、線形判別分析(LDA)はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。
タイトルとURLをコピーしました