多次元尺度構成法 (MDS: Multi-Dimensional Scaling)
解説
多次元尺度構成法(MDS)とは、個体間の「距離(類似度)」の情報だけをもとに、それらの位置関係を2次元や3次元の空間上に再現(可視化)する次元削減手法です。
「距離表」から「地図」を作る
MDSを理解する上で最も有名な例が「都市間の距離」です。
例えば、手元に「東京-大阪:400km」「東京-札幌:800km」「大阪-福岡:500km」……といった、都市間の移動距離だけが書かれた表(距離行列)があるとします。都市の緯度・経度(座標)は分かりません。
この「距離の表」をMDSに入力すると、「この距離関係を満たすには、東京はこの辺、大阪はこの辺…」と計算し、日本地図のような配置図を復元してくれます。
このように、抽象的なデータであっても「似ている・似ていない(距離)」さえ定義できれば、それを絵(地図)にできるのがMDSの強みです。

評価指標:ストレス(Stress)
MDSが配置した点同士の距離と、元のデータの距離がどれくらいズレているかを表す指標を「ストレス(Stress)」と呼びます。このストレス値が最小になるように配置を決定します。
PCAとの違い
| 比較項目 | 主成分分析 (PCA) | 多次元尺度構成法 (MDS) |
|---|---|---|
| 入力データ | 特徴量ベクトル (身長、体重、年収など) |
距離行列 (AさんとBさんの違い、CさんとDさんの違いなど) |
| 保存するもの | 全体の分散 | 個体間の距離 |
※ただし、ユークリッド距離を用いた計量MDSの結果は、PCAの結果と一致することが知られています。
G検定対策
出題ポイント
- 入力:座標データそのものではなく、データ間の「距離行列(非類似度行列)」を入力とする。
- 目的:距離関係を保ったまま低次元空間に配置(可視化)すること。
- キーワード:最適化の指標として「ストレス(Stress)」を用いる。
よくあるひっかけ問題
- × MDSは、各データの特徴量(ベクトル)を入力として次元削減を行う
(解説)MDSの入力は「距離行列」です。特徴量そのもの(座標)が不明でも、距離さえ分かれば使える点が特徴です。 - × MDSは、分類(クラスタリング)を行う手法である
(解説)あくまで「配置(可視化)」する手法です。結果としてグループが見えることはありますが、アルゴリズム自体がグループ分けをしてくれるわけではありません。
