分散表現 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

単語の意味を捉える「分散表現」の登場

「ワンホットベクトル」には、大きな弱点がありました。それは、「単語同士の意味の近さが計算できない」ことです。

例えば、「王様」と「王子」は意味が近いですが、ワンホットベクトルではどちらも独立した「1」と「0」の羅列であり、計算上の関連性はゼロです。

この課題を解決し、「単語の意味や関係性を、ベクトル空間上の距離（近さ）で表現できるようになった」のが、この章で解説する技術群です。自然言語処理における革命的な進化と言えます。

単語を、固定長の密なベクトル（例えば50〜300次元程度の実数値）に変換する技術の総称です。

2013年にGoogleの研究者（Mikolovら）によって提案された、分散表現を作るための画期的な手法です。ニューラルネットワークを使って、大量のテキストデータから単語のベクトルを学習します。

G検定の超頻出ポイント：単語の足し算・引き算
word2vecで学習したベクトルを使うと、単語の意味を計算することができます。最も有名な例が以下です。「王様」－「男」＋「女」 ≒ 「女王」

「王様」という概念から「男」成分を引き、「女」成分を足すと、「女王」のベクトルに近い位置になる、というものです。

word2vecには、学習のさせ方に2つのモデル（アルゴリズム）があります。「何を入力して、何を予測させるか」の違いを整理して覚えましょう。

「周辺」の単語から、「真ん中」の単語を予測するモデルです。

CBOWの逆です。「真ん中」の単語から、「周辺」の単語を予測するモデルです。

2016年にFacebook AI Research（現Meta）が開発した、word2vecの発展型モデルです。

word2vecの最大の弱点は、「学習時に登場しなかった単語（未知語）はベクトル化できない」ことでした。これを解決したのがfastTextです。

単語をさらに細かい「文字の並び（サブワード）」に分解して学習します。

例えば「apple」という単語なら、そのまま覚えるのではなく、
<ap, app, ppl, ple, le>
といったパーツ（N-gram）の集合として扱います。