Web教科書

多次元尺度構成法(MDS)

多次元尺度構成法 (MDS: Multi-Dimensional Scaling)

解説

多次元尺度構成法(MDS)とは、個体間の「距離(類似度)」の情報だけをもとに、それらの位置関係を2次元や3次元の空間上に再現(可視化)する次元削減手法です。

「距離表」から「地図」を作る

MDSを理解する上で最も有名な例が「都市間の距離」です。
例えば、手元に「東京-大阪:400km」「東京-札幌:800km」「大阪-福岡:500km」……といった、都市間の移動距離だけが書かれた表(距離行列)があるとします。都市の緯度・経度(座標)は分かりません。

この「距離の表」をMDSに入力すると、「この距離関係を満たすには、東京はこの辺、大阪はこの辺…」と計算し、日本地図のような配置図を復元してくれます。
このように、抽象的なデータであっても「似ている・似ていない(距離)」さえ定義できれば、それを絵(地図)にできるのがMDSの強みです。

評価指標:ストレス(Stress)

MDSが配置した点同士の距離と、元のデータの距離がどれくらいズレているかを表す指標を「ストレス(Stress)」と呼びます。このストレス値が最小になるように配置を決定します。

PCAとの違い

比較項目 主成分分析 (PCA) 多次元尺度構成法 (MDS)
入力データ 特徴量ベクトル
(身長、体重、年収など)
距離行列
(AさんとBさんの違い、CさんとDさんの違いなど)
保存するもの 全体の分散 個体間の距離

※ただし、ユークリッド距離を用いた計量MDSの結果は、PCAの結果と一致することが知られています。


G検定対策

出題ポイント

  • 入力:座標データそのものではなく、データ間の「距離行列(非類似度行列)」を入力とする。
  • 目的:距離関係を保ったまま低次元空間に配置(可視化)すること。
  • キーワード:最適化の指標として「ストレス(Stress)」を用いる。

よくあるひっかけ問題

  • × MDSは、各データの特徴量(ベクトル)を入力として次元削減を行う
    (解説)MDSの入力は「距離行列」です。特徴量そのもの(座標)が不明でも、距離さえ分かれば使える点が特徴です。
  • × MDSは、分類(クラスタリング)を行う手法である
    (解説)あくまで「配置(可視化)」する手法です。結果としてグループが見えることはありますが、アルゴリズム自体がグループ分けをしてくれるわけではありません。
タイトルとURLをコピーしました