クラスタリング - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

クラスタリング（Clustering）

クラスタリング（クラスター分析）とは、データの中から「似ているもの同士」を自動的に集めてグループ分け（クラスター化）する手法です。

最大の特徴は、正解データ（「これはAです」というラベル）を与えない「教師なし学習」である点です。AIは「何が正解か」を知らされないまま、データの形状や距離だけを見て「このデータとこのデータは近いから同じ仲間だろう」と判断します。

「分ける」という点は同じですが、アプローチが正反対です。

G検定では、以下の2つの手法の違いがよく問われます。

種類	代表的なアルゴリズム	特徴・キーワード
非階層的手法	k-means法（k平均法）	・あらかじめクラスター数（k）を決める必要がある。・ビッグデータでも計算が速い。・エルボー法で最適なkを探す。
階層的手法	ウォード法（Ward法）	・似ているものから順にくっつけていく。・デンドログラム（樹形図）が作れる。・計算量が重く、ビッグデータには不向き。

k-means法の仕組み：
データをランダムにk個のグループに分け、「重心（中心）」を更新しながらグループを修正していく反復アルゴリズムです。初期値に結果が左右されやすい欠点があります（対策：k-means++）。
距離の定義：
「似ている」と判断するために、通常はユークリッド距離（直線距離）などが使われます。
エルボー法：
k-meansで「いくつのグループに分けるのがベストか（kの数）」を決める際に、グラフの折れ曲がり具合を見て判断する手法。

× クラスタリングが「このグループは富裕層だ」と教えてくれる
（解説）クラスタリングは「グループ分け」をしてくれるだけです。そのグループが「何を意味するのか（富裕層なのか、若者層なのか）」の意味づけ（解釈）は人間が行う必要があります。
× 分類問題との混同
問題文に「正解ラベルを用いて〜」とあったら分類（教師あり）、「データの類似度に基づいて〜」とあったらクラスタリング（教師なし）です。