ウェブマイニング
解説
ウェブマイニングとは、データマイニングの技術をWeb上のデータに適用し、有用なパターンや知識を抽出する技術の総称です。単にWebページに書いてあることを読むだけでなく、リンクのつながりや、ユーザがどう動いたかまでを分析対象とします。
3つの重要な分類
ウェブマイニングは、分析対象によって以下の3つに大別されます。この分類はG検定で非常に頻出です。
- Webコンテンツマイニング:
Webページ上の「テキスト」「画像」「動画」などの中身を分析します。自然言語処理技術を用いて、そのページが何をテーマにしているか等を抽出します。 - Web構造マイニング:
Webページの「ハイパーリンク(リンク構造)」を分析します。代表例はGoogleのPageRank(ページランク)やHITSアルゴリズムです。「多くの良質なページからリンクされているページは重要である」といった構造上の特性を見抜きます。 - Web利用マイニング(Webユーザビリティマイニング):
アクセスログ、クッキー(Cookie)、検索履歴など、ユーザの行動を分析します。ECサイトのレコメンデーションや、サイトの使いやすさ改善(UI/UX)に活用されます。
G検定対策
出題ポイント
- 3分類の区別:「コンテンツ(中身)」「構造(リンク)」「利用(ログ)」の違いを完璧に覚える。
- 代表的アルゴリズム:「Web構造マイニング」の代表例として、Googleの創始者ラリー・ペイジらが考案したPageRankが出題される。
よくあるひっかけ問題
- × PageRankは、Webコンテンツマイニングの一種である
(解説)違います。ページの内容(テキスト)ではなく、リンクのつながりを見るため「Web構造マイニング」に分類されます。ここが最も狙われやすいポイントです。
