Web教科書

主成分分析(PCA)

主成分分析 (PCA: Principal Component Analysis)

解説

主成分分析(PCA)とは、たくさんの変数(次元)を持つデータを、情報の損失をできるだけ抑えつつ、少ない変数(次元)に要約する次元削減の手法です。

具体例:5科目のテスト結果を「要約」する

あるクラスの生徒たちが、「国語・数学・理科・社会・英語」の5科目のテストを受けたとします。このデータは「5次元」あり、そのままでは全体像を把握したりグラフにしたりするのが困難です。

そこでPCAを使って、この5つの指標を「2つの新しい指標(主成分)」に要約してみます。

  • 第1主成分(PC1):総合的な学力
    「全科目の点数が高いか低いか」を表す軸。データのばらつき(個人差)が最も大きく出るのはここです。
  • 第2主成分(PC2):理系・文系の傾向
    「数学・理科が得意か、国語・社会が得意か」を表す軸。第1主成分(総合点)では説明しきれない違いを表現します。

このように、5つあった変数を、情報の損失を最小限に抑えつつ「総合力」と「理系文系」という2つの変数に圧縮するのがPCAです。

仕組み:「分散」が最大になる方向を探す

PCAは数学的に、「データのばらつき(分散)が最も大きい方向」を第1主成分として決定します。
分散が大きいということは、データごとの違い(個性)がよく表れている=「情報量が多い」ことを意味します。

直交と無相関

第1主成分が決まったら、次は「第1主成分と直交する(90度で交わる)」方向の中で、最も分散が大きい方向を第2主成分とします。
このようにして作られた新しい軸(主成分)同士は、数学的に「無相関(相関係数が0)」になります(「総合力」と「文理傾向」は別の話、というイメージです)。


G検定対策

出題ポイント

  • 定義:多変量データを、より少ない指標(主成分)に要約する「次元削減」の手法(教師なし学習)。
  • 仕組み:データの「分散(Variance)」が最大になる軸を探す。
  • 特徴:作成された主成分同士は互いに「直交(Orthogonal)」し、「無相関」である。
  • 指標:どのくらい情報を説明できているかを表す「累積寄与率」(例:80%以上など)を目安に次元数を決める。

よくあるひっかけ問題

  • × 主成分分析は、元の変数の中から最も重要なものを1つ選ぶ手法である
    (解説)違います。それは「変数選択」です。PCAは、元の変数を混ぜ合わせた(線形結合した)「新しい合成変数」を作ります。(例:数学を選ぶのではなく、「数学+理科」で理系力を測る)。
  • × 主成分分析は、教師あり学習の分類手法である
    (解説)PCAは正解ラベルを使わない「教師なし学習」です。また、データを分ける(分類)のではなく、データを要約する(次元削減)手法です。
タイトルとURLをコピーしました