Web教科書

潜在的ディリクレ配分法(LDA)

潜在的ディリクレ配分法 (LDA: Latent Dirichlet Allocation)

解説

潜在的ディリクレ配分法(LDA)とは、トピックモデル(文書の話題分析)における最も代表的な手法です。2003年にDavid Bleiらによって提案されました。

「文書」は「トピック」の混ぜ合わせである

LDAの最大の特徴は、1つの文書が単一のトピック(例:スポーツ)に属するのではなく、「複数のトピックが確率的に混ざり合ってできている」と考える点です。
例えば、あるニュース記事が「スポーツ要素:70%、経済要素:30%」で構成されていると仮定します。この比率(トピック分布)を決める確率分布として「ディリクレ分布」を用いるため、この名前がついています。

生成プロセスの逆推定

LDAは、「人間が文章を書くとき、まず頭の中でトピックの配分(サイコロ)を決め、そのトピックに応じて単語(サイコロ)を選んでいるはずだ」という仮説(生成モデル)に基づいています。
実際の解析では、この逆を行い、目の前にある大量の文書データから「どんなトピックのサイコロが使われたのか?」を推定します。


G検定対策

出題ポイント

  • 位置づけ:トピックモデルの代表例であり、教師なし学習に分類される。
  • 仕組み:「文書ごとのトピック分布」と「トピックごとの単語分布」を推定する。
  • 確率分布:事前分布として「ディリクレ分布(Dirichlet Distribution)」を仮定している。
タイトルとURLをコピーしました