Web教科書

ウォード法

ウォード法(Ward’s Method)

解説

ウォード法は、「階層的クラスタリングの中で最も一般的で、精度が良いとされる手法です。

k-means法のように最初からグループを決めるのとは異なり、最初は「バラバラのデータ」からスタートし、「似ているもの同士」を順番にくっつけていく(マージする)ことで、最終的に大きなグループを作っていく手法です。これを凝集型(ボトムアップ)のアプローチと呼びます。

最大の特徴:デンドログラム(樹形図)

ウォード法でクラスタリングを行うと、デンドログラム(樹形図)と呼ばれるトーナメント表のようなグラフを描くことができます。
この図を見ることで、「どのデータとどのデータが似ているか」「どこで切ればいくつのグループに分かれるか」を視覚的に把握できます。

階層的 vs 非階層的

比較 階層的(ウォード法など) 非階層的(k-means法)
アプローチ 似たものを順にまとめる
(デンドログラムができる)
全体をバサッと分割する
(k個のグループを作る)
クラスタ数 計算後に後から決められる 計算前に先に決める必要がある
計算量・速度 計算量が多く、遅い
(ビッグデータには不向き)
計算が速い
(ビッグデータ向き)

ウォード法の計算ロジック

「何を基準に似ていると判断するか(距離)」の定義にはいくつかの手法(最短距離法、群平均法など)がありますが、ウォード法はその中でも最もよく使われます。
「結合したときの分散(ばらつき)の増加量が最小になるペア」を選んでくっつけていくため、バランスの良いきれいなクラスタができやすいのが特徴です。


G検定対策

出題ポイント

  • 用語の定義:「階層的クラスタリング」「凝集型(Agglomerative)」の手法である。
  • 距離の定義:ウォード法は「クラスタ内の誤差二乗和(分散)の増加分」を距離として定義している。
  • 計算コスト:データ数が増えると計算量が爆発的に増えるため、大量のデータには適さない(その場合はk-meansを使う)。

ひっかけ対策・注意点

  • デンドログラムの切断:
    「デンドログラムのどこを切ってもよい」という点と、「切る高さによってクラスタ数が変わる(下で切れば多く、上で切れば少なくなる)」という関係性を理解しておきましょう。
  • × クラスタ数を事前に決める必要がある
    (解説)これはk-means法のことです。階層的クラスタリングは、計算が終わった後にデンドログラムを見て決めます。
タイトルとURLをコピーしました