文脈の理解 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

文脈の理解と「ディープラーニング・LLM」へ

word2vecなどの分散表現は画期的でしたが、「多義語（同じ単語でも文脈によって意味が違う）」を区別できないという課題がありました。

文脈（Context）を理解するために発展したニューラルネットワークと、現在のAIブームの火付け役である「Transformer」および大規模言語モデル（LLM）について解説します。

ある時系列データ（文章など）を、別の時系列データに変換するモデルです。「Encoder-Decoderモデル」とも呼ばれます。

主に機械翻訳、対話システム（チャットボット）、文章要約などで使われます。

これはモデル名ではなく、LSTM（Long Short-Term Memory）というリカレントニューラルネットワーク（RNN）の中にある重要な「部品」の名前です。

G検定出題ポイント
通常のRNNは、長い文章を学習すると昔の情報を忘れてしまう「勾配消失問題」がありました。
CECは、「誤差を内部にとどめ、勾配を1に保つ（消失させない）」仕組みを持ち、これにより長期的な記憶が可能になりました。

「文脈化単語埋め込み」を実現したモデルです。

word2vecでは「bank（土手）」も「bank（銀行）」も同じベクトルでしたが、ELMoは双方向LSTM（BiLSTM）を使うことで、前後の文脈を見て、その都度異なるベクトルを生成できるようになりました。

2018年にGoogleが発表し、NLPの歴史を塗り替えたモデルです。Transformerの「Encoder」部分を使用しています。

BERTはラベルのない大量の文章を読み込み、以下の2つのタスクで「言葉の意味」を深く学習します。

これにより、文脈を「双方向」から深く理解できるのが特徴です。

OpenAIが開発したモデル群です。BERTとは対照的に、Transformerの「Decoder」部分を使用しています。

「前の単語を見て、次の単語を予測する」というシンプルなタスクをひたすら繰り返します。
一方向（左から右）の予測しかできませんが、その分、流暢な文章を生成することに特化しています。

LLM（大規模言語モデル）：数億〜数千億ものパラメータを持つ巨大な言語モデルの総称。BERTやGPTもこれに含まれます。
ChatGPT：GPT-3.5やGPT-4をベースに、人間との「対話（チャット）」ができるように調整（ファインチューニング）されたモデルです。
PaLM (Pathways Language Model)：Googleが開発した超巨大LLM。5400億パラメータを持ち、論理推論やジョークの解説など高度な能力を示しました。

「AIがどれくらい賢くなったか」を測るための、自然言語理解のベンチマーク（テスト問題集）です。

感情分析、含意関係認識など複数のタスクが含まれており、BERTやGPTなどの新しいモデルが出るたびに「GLUEスコアで人間を超えた」といった形で性能比較に使われます。

非常によく似ているようで役割が違う2つのモデルを整理しました。ここだけは暗記しておきましょう。