Web教科書

データマイニング

データマイニング

解説

データマイニング(Data Mining)とは、大量のデータ(ビッグデータ)の中から、統計学や機械学習、パターン認識などの技術を駆使して、人間にとって有用な「知識(ルールやパターン)」を発掘する技術の総称です。

「おむつとビール」の伝説

データマイニングの最も有名な成功例として「おむつとビール」の話があります。米国のスーパーマーケットで購買データを分析した結果、「おむつを買う父親は、ついでにビールも買う傾向がある」という意外な相関関係(アソシエーションルール)が発見されました。
このように、人間の直感では気づかないような隠れた法則を見つけ出し、店舗の陳列変更やマーケティングに活かすことがデータマイニングの真髄です。

KDD(データベースからの知識発見)

学術的には「KDD(Knowledge Discovery in Databases)」と呼ばれるプロセスの一部として位置づけられます。単なるデータの集計ではなく、ノイズを除去し、意味のあるパターンを抽出する一連の流れを指します。


G検定対策

出題ポイント

  • 代表的手法:
    • アソシエーション分析(バスケット分析):「Aを買う人はBも買う」というルールを見つける(支持度・確信度・リフト値)。
    • クラスタリングデータを似たもの同士のグループに分ける。
    • 分類(クラス分類)メールを「スパム」か「通常」かに分けるなど。
  • キーワード:「おむつとビール」、「KDDプロセス」。

よくあるひっかけ問題

  • × データマイニングとは、データをグラフにして可視化することである
    (解説)可視化も一部ですが、目的は「未知の有用な知識(ルール)を発見すること」です。単なる集計とは区別されます。
タイトルとURLをコピーしました