Web教科書

デンドログラム

デンドログラム (Dendrogram)

解説

デンドログラム(樹形図)とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状(木構造)に可視化した図のことです。

図の読み方:高さ=「似てなさ」

デンドログラムの縦軸は、データ同士の「距離(非類似度)」を表します。

  • 低い位置で結合している:データ同士が「似ている(距離が近い)」。
  • 高い位置で結合している:データ同士が「似ていない(距離が遠い)」。

図の下の方から順に小さなグループができ、それらが徐々に結合して大きなグループになっていく過程(凝集型)が一目でわかります。

最大のメリット:後出しジャンケンができる

k-means法」などの非階層的クラスタリングでは、最初に「3つのグループに分ける!」と決め打ちする必要があります。
しかし、デンドログラムを使えば、一度計算して図を作った後に、「この高さ(距離)で線を引いて(切断して)、4つのグループということにしよう」と、結果を見てからクラスター数を決定できます。


G検定対策

出題ポイント

  • 定義:「階層的クラスタリング」の過程を可視化するグラフ。
  • 軸の意味:結合する高さが「クラスタ間の距離」を表す。
  • メリット:クラスター数(グループ数)を事前に決める必要がなく、図を見てから事後的に決定できる。
  • 関連手法:距離の測り方としてウォード法(Ward’s method)や「群平均法」などがよく使われる。

よくあるひっかけ問題

  • × デンドログラムは、k-means法(非階層的クラスタリング)の結果を可視化する図である
    (解説)k-means法ではデンドログラムは作れません。これは「階層的クラスタリング」専用の図です。
  • × デンドログラムを作成するには、事前にクラスター数を決定しなければならない
    (解説)逆です。作成した後で、どこで切るかによってクラスター数を決められます。
タイトルとURLをコピーしました