ウォード法(Ward’s Method)
解説
ウォード法は、「階層的クラスタリング」の中で最も一般的で、精度が良いとされる手法です。
k-means法のように最初からグループを決めるのとは異なり、最初は「バラバラのデータ」からスタートし、「似ているもの同士」を順番にくっつけていく(マージする)ことで、最終的に大きなグループを作っていく手法です。これを凝集型(ボトムアップ)のアプローチと呼びます。

最大の特徴:デンドログラム(樹形図)
ウォード法でクラスタリングを行うと、「デンドログラム(樹形図)」と呼ばれるトーナメント表のようなグラフを描くことができます。
この図を見ることで、「どのデータとどのデータが似ているか」「どこで切ればいくつのグループに分かれるか」を視覚的に把握できます。
階層的 vs 非階層的
| 比較 | 階層的(ウォード法など) | 非階層的(k-means法) |
|---|---|---|
| アプローチ | 似たものを順にまとめる (デンドログラムができる) |
全体をバサッと分割する (k個のグループを作る) |
| クラスタ数 | 計算後に後から決められる | 計算前に先に決める必要がある |
| 計算量・速度 | 計算量が多く、遅い (ビッグデータには不向き) |
計算が速い (ビッグデータ向き) |
ウォード法の計算ロジック
「何を基準に似ていると判断するか(距離)」の定義にはいくつかの手法(最短距離法、群平均法など)がありますが、ウォード法はその中でも最もよく使われます。
「結合したときの分散(ばらつき)の増加量が最小になるペア」を選んでくっつけていくため、バランスの良いきれいなクラスタができやすいのが特徴です。
G検定対策
出題ポイント
- 用語の定義:「階層的クラスタリング」「凝集型(Agglomerative)」の手法である。
- 距離の定義:ウォード法は「クラスタ内の誤差二乗和(分散)の増加分」を距離として定義している。
- 計算コスト:データ数が増えると計算量が爆発的に増えるため、大量のデータには適さない(その場合はk-meansを使う)。
ひっかけ対策・注意点
- デンドログラムの切断:
「デンドログラムのどこを切ってもよい」という点と、「切る高さによってクラスタ数が変わる(下で切れば多く、上で切れば少なくなる)」という関係性を理解しておきましょう。 - × クラスタ数を事前に決める必要がある
(解説)これはk-means法のことです。階層的クラスタリングは、計算が終わった後にデンドログラムを見て決めます。
