データマイニング

解説

データマイニング（Data Mining）とは、大量のデータ（ビッグデータ）の中から、統計学や機械学習、パターン認識などの技術を駆使して、人間にとって有用な「知識（ルールやパターン）」を発掘する技術の総称です。

「おむつとビール」の伝説

データマイニングの最も有名な成功例として「おむつとビール」の話があります。米国のスーパーマーケットで購買データを分析した結果、「おむつを買う父親は、ついでにビールも買う傾向がある」という意外な相関関係（アソシエーションルール）が発見されました。
このように、人間の直感では気づかないような隠れた法則を見つけ出し、店舗の陳列変更やマーケティングに活かすことがデータマイニングの真髄です。

KDD（データベースからの知識発見）

学術的には「KDD（Knowledge Discovery in Databases）」と呼ばれるプロセスの一部として位置づけられます。単なるデータの集計ではなく、ノイズを除去し、意味のあるパターンを抽出する一連の流れを指します。

G検定対策

出題ポイント

代表的手法：
- アソシエーション分析（バスケット分析）：「Aを買う人はBも買う」というルールを見つける（支持度・確信度・リフト値）。
- クラスタリング：データを似たもの同士のグループに分ける。
- 分類（クラス分類）：メールを「スパム」か「通常」かに分けるなど。
キーワード：「おむつとビール」、「KDDプロセス」。