Web教科書

ウェブマイニング

ウェブマイニング

解説

ウェブマイニングとは、データマイニングの技術をWeb上のデータに適用し、有用なパターンや知識を抽出する技術の総称です。単にWebページに書いてあることを読むだけでなく、リンクのつながりや、ユーザがどう動いたかまでを分析対象とします。

3つの重要な分類

ウェブマイニングは、分析対象によって以下の3つに大別されます。この分類はG検定で非常に頻出です。

  • Webコンテンツマイニング:
    Webページ上の「テキスト」「画像」「動画」などの中身を分析します。自然言語処理技術を用いて、そのページが何をテーマにしているか等を抽出します。
  • Web構造マイニング:
    Webページの「ハイパーリンク(リンク構造)」を分析します。代表例はGoogleのPageRank(ページランク)やHITSアルゴリズムです。「多くの良質なページからリンクされているページは重要である」といった構造上の特性を見抜きます。
  • Web利用マイニング(Webユーザビリティマイニング):
    アクセスログ、クッキー(Cookie)、検索履歴など、ユーザの行動を分析します。ECサイトのレコメンデーションや、サイトの使いやすさ改善(UI/UX)に活用されます。

G検定対策

出題ポイント

  • 3分類の区別:「コンテンツ(中身)」「構造(リンク)」「利用(ログ)」の違いを完璧に覚える。
  • 代表的アルゴリズム:「Web構造マイニング」の代表例として、Googleの創始者ラリー・ペイジらが考案したPageRankが出題される。

よくあるひっかけ問題

  • × PageRankは、Webコンテンツマイニングの一種である
    (解説)違います。ページの内容(テキスト)ではなく、リンクのつながりを見るため「Web構造マイニング」に分類されます。ここが最も狙われやすいポイントです。
タイトルとURLをコピーしました