t-SNE - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

t-SNE (t-Distributed Stochastic Neighbor Embedding)

t-SNE（ティー・スニー）とは、高次元データを2次元や3次元に圧縮し、人間が目で見て分かるように可視化するための「非線形」な次元削減手法です。

主成分分析（PCA）が「全体のばらつき（分散）」を重視するのに対し、t-SNEは「データ間の局所的な関係（近さ）」を重視します。
高次元空間で「近くにいるデータ同士」は、低次元空間（2次元など）に移しても「近く」になるように、逆に「遠くにあるデータ」は「遠く」になるように配置します。

この手法の面白い点は、距離を「確率」に変換して扱うことです。

SNE（Stochastic Neighbor Embedding）：高次元での距離関係を確率分布（ガウス分布）で表現します。
t-SNE：低次元側の確率分布に「t分布（裾の重い分布）」を使います。これにより、データが中心にギュッと集まりすぎてしまう問題（混雑問題）を解消し、クラスタ（グループ）を綺麗に分離して表示できます。

t-SNEによる可視化のイメージ

× t-SNEの結果の軸（横軸・縦軸）には、PCAのように明確な意味がある
（解説）ありません。t-SNEは距離関係だけを保つように配置するため、座標軸の数値自体には意味がなく、解釈はできません（「右に行くほど年収が高い」などは言えない）。
× 新しいデータに対しても、学習済みt-SNEモデルを使って簡単に次元圧縮できる
（解説）できません。t-SNEは「今あるデータ」を配置することに特化しており、未知のデータを追加して変換する機能（写像関数）は持ちません。