Web教科書

t-SNE

t-SNE (t-Distributed Stochastic Neighbor Embedding)

解説

t-SNE(ティー・スニー)とは、高次元データを2次元や3次元に圧縮し、人間が目で見て分かるように可視化するための「非線形」な次元削減手法です。

「近くのものは近くに」

主成分分析(PCA)が「全体のばらつき(分散)」を重視するのに対し、t-SNEは「データ間の局所的な関係(近さ)」を重視します。
高次元空間で「近くにいるデータ同士」は、低次元空間(2次元など)に移しても「近く」になるように、逆に「遠くにあるデータ」は「遠く」になるように配置します。

確率分布とt分布

この手法の面白い点は、距離を「確率」に変換して扱うことです。

  • SNE(Stochastic Neighbor Embedding):高次元での距離関係を確率分布(ガウス分布)で表現します。
  • t-SNE:低次元側の確率分布に「t分布(裾の重い分布)」を使います。これにより、データが中心にギュッと集まりすぎてしまう問題(混雑問題)を解消し、クラスタ(グループ)を綺麗に分離して表示できます。

t-SNEによる可視化のイメージ

PCAとの違い

比較項目 PCA (主成分分析) t-SNE
手法 線形 非線形
重視する点 全体的な構造(分散最大化) 局所的な構造(近傍関係)
再現性 毎回同じ結果になる 計算ごとに結果が変わる(確率的)

G検定対策

出題ポイント

  • 目的:高次元データの構造を理解するための「可視化(Visualization)」に特化した手法である。
  • 特徴:「非線形」な手法であり、複雑な形状のデータ(スイスロールなど)も綺麗に展開できる。
  • キーワード:「局所的な構造の保持」、「t分布(混雑問題の解消)」。

よくあるひっかけ問題

  • × t-SNEの結果の軸(横軸・縦軸)には、PCAのように明確な意味がある
    (解説)ありません。t-SNEは距離関係だけを保つように配置するため、座標軸の数値自体には意味がなく、解釈はできません(「右に行くほど年収が高い」などは言えない)。
  • × 新しいデータに対しても、学習済みt-SNEモデルを使って簡単に次元圧縮できる
    (解説)できません。t-SNEは「今あるデータ」を配置することに特化しており、未知のデータを追加して変換する機能(写像関数)は持ちません。
タイトルとURLをコピーしました