デンドログラム (Dendrogram)
解説
デンドログラム(樹形図)とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状(木構造)に可視化した図のことです。

図の読み方:高さ=「似てなさ」
デンドログラムの縦軸は、データ同士の「距離(非類似度)」を表します。
- 低い位置で結合している:データ同士が「似ている(距離が近い)」。
- 高い位置で結合している:データ同士が「似ていない(距離が遠い)」。
図の下の方から順に小さなグループができ、それらが徐々に結合して大きなグループになっていく過程(凝集型)が一目でわかります。
最大のメリット:後出しジャンケンができる
「k-means法」などの非階層的クラスタリングでは、最初に「3つのグループに分ける!」と決め打ちする必要があります。
しかし、デンドログラムを使えば、一度計算して図を作った後に、「この高さ(距離)で線を引いて(切断して)、4つのグループということにしよう」と、結果を見てからクラスター数を決定できます。
G検定対策
出題ポイント
- 定義:「階層的クラスタリング」の過程を可視化するグラフ。
- 軸の意味:結合する高さが「クラスタ間の距離」を表す。
- メリット:クラスター数(グループ数)を事前に決める必要がなく、図を見てから事後的に決定できる。
- 関連手法:距離の測り方として「ウォード法(Ward’s method)」や「群平均法」などがよく使われる。
よくあるひっかけ問題
- × デンドログラムは、k-means法(非階層的クラスタリング)の結果を可視化する図である
(解説)k-means法ではデンドログラムは作れません。これは「階層的クラスタリング」専用の図です。 - × デンドログラムを作成するには、事前にクラスター数を決定しなければならない
(解説)逆です。作成した後で、どこで切るかによってクラスター数を決められます。
