自然言語処理の基礎 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

自然言語処理

私たち人間は「言葉（自然言語）」を当たり前に使っていますが、コンピュータはそのままでは言葉を理解できません。コンピュータが扱えるのは「数値」だけだからです。

そのため、AIに言葉を教える最初のステップは、「言葉を数値（ベクトル）に変換すること」になります。

この章では、ディープラーニングが登場する前の、古典的ですがG検定で頻出の基礎技術について解説します。

文章を、意味を持つ最小の単位である「形態素」に分解する処理のことです。

英語は単語と単語の間にスペース（空白）があるため分解しやすいですが、日本語は「私は学生です」のように単語が連続しているため、この処理が非常に重要になります。

例：
入力：「私はG検定を勉強します」
出力：「私 / は / G検定 / を / 勉強 / し / ます」

形態素解析で分解した単語たちが、文の中でどのように関係しているか（主語・述語・修飾語など）を解析する処理です。

「誰が」「何を」「どうした」という係り受けの関係を木構造（ツリー状）にして明らかにします。

単語をコンピュータで扱うために、最も単純に数値化する方法です。

あらかじめ登録されている単語リストの長さだけ「0」を並べ、該当する単語の場所だけを「1」にします。

イメージ：
りんご = [1]
バナナ = [1]
みかん = [1]

メリット：シンプルでわかりやすい。
デメリット：単語数が増えるとベクトルの桁数が膨大になり、ほとんどが「0」のデータになってしまう（これを「疎なベクトル」と言います）。また、「りんご」と「みかん」が似ているといった意味の類似性は表現できません。

ワンホットベクトルのように、「1つの単語を、独立した1つの要素（次元）で表現する方法」を指します。

後に出てくる「分散表現（単語の意味を複数の数値の組み合わせで表す）」の対義語として覚えておきましょう。

文章の中に「どの単語が、何回出てきたか」だけに着目して数値化する手法です。

その名の通り、単語を「袋（Bag）」にごちゃ混ぜに入れるイメージです。袋の中でシャッフルされるため、語順（文法）は無視されます。

例：
文A：「私はりんごが好き」
文B：「私はりんごとみかんが好き」BoWによるカウント：
私:2, りんご:2, みかん:1, 好き:2 …

BoWのように単に「何回出たか」を数えるだけではなく、「その単語がその文章にとってどれくらい重要か（特徴的か）」を評価するための手法です。

検索エンジンなどで、「数あるWebサイトの中から、この検索ワードに最もマッチする重要な記事はどれか？」を見つける際などの基礎として使われています。G検定では計算問題も出題されるため、式の意味を理解しておきましょう。

TF-IDF = TF（出現頻度）× IDF（逆文書頻度）

「その文書の中で、その単語がどれくらい頻繁に出てくるか」を表します。

「世の中の他の文書と比べて、その単語がどれくらいレアか」を表します。

わかりやすく、以下の2つの文書（全文書数 = 2）で考えてみましょう。

ここで文書Bにおける「AI」と「G検定」の重要度を比べてみます。

単語	TF（文書B内での頻度）	IDF（レア度）	結果 (TF×IDF)
AI	文書Bに1回登場。 (1/5語 = 0.2)	文書AとBの両方にある。 (レアじゃない = 低い)	低い (重要度小)
G検定	文書Bに1回登場。 (1/5語 = 0.2)	文書Bにしかない。 (レアである = 高い)	高い (重要度大)