Web教科書

次元削減

次元削減(Dimensionality Reduction)

解説

次元削減とは、データが持っている情報の損失をできるだけ抑えながら、変数(特徴量)の数を減らしてデータを要約する手法です。

例えば、「身長」「体重」「座高」「足のサイズ」……といった多数のデータ(高次元)がある場合、それらをまとめて「体格」という新しい1つの指標(低次元)に圧縮するようなイメージです。

なぜ次元削減が必要なのか?:次元の呪い

AIにとって、データの項目数(次元)が多すぎることは必ずしも良いことではありません。次元が増えすぎると以下の問題が発生します。これを次元の呪いと呼びます。

  • 計算コストの増大:学習に時間がかかりすぎる。
  • データの希薄化:空間が広がりすぎて、データがスカスカになり、学習効率が落ちる。
  • 過学習(Overfitting)モデルが複雑になりすぎて汎化性能が下がる。
  • 可視化の困難:4次元以上のデータはグラフで描画できない(人間が理解できない)。

代表的な手法

目的やデータの性質によって使い分けます。

手法名 タイプ・特徴 G検定キーワード
主成分分析
(PCA)
教師なし学習
データの「分散(ばらつき)」が最大になる方向を見つけて、新しい軸を作る。
・分散最大化
・第一主成分
・寄与率
t-SNE 非線形な圧縮
高次元のデータを2次元や3次元に圧縮して可視化するのに優れている。
・可視化
・近傍関係の保存
線形判別分析
(LDA)
教師あり学習
「クラスを最もよく分離できる軸」を探す(分類の前処理向き)。
・教師あり
・クラス分類

G検定対策

出題ポイント

  • 次元の呪い(Curse of Dimensionality):「次元が増えると学習に必要なデータ量が指数関数的に増え、効率が悪化する現象」の定義。
  • 特徴抽出(Feature Extraction):次元削減は、元のデータをただ選ぶのではなく、計算によって「新しい特徴量」を作り出す手法であること。
  • 寄与率(PCA):新しい軸(主成分)が、元のデータの情報をどれくらい説明できているかを表す指標。

ひっかけ対策・注意点

  • 【最重要】「特徴量選択」との違い:
    どちらも変数を減らす手法ですが、アプローチが異なります。

    • 特徴量選択(Selection):「身長・体重・座高」の中から「身長」だけを選ぶ(他は捨てる)。
    • 次元削減(Extraction):「身長・体重・座高」を計算して「体格指数」という新しい値を作る。
  • PCAは教師なし、LDAは教師あり:
    主成分分析(PCA)は正解ラベルを使わない「教師なし学習」ですが、線形判別分析(LDA)はクラスを分けるために正解ラベルを使う「教師あり学習」です。この入れ替え問題に注意しましょう。
タイトルとURLをコピーしました