Web教科書

LLM

LLM(Large Language Model:大規模言語モデル)

解説

LLM(大規模言語モデル)とは、計算量・データ量・パラメータ数が巨大な(数億〜数兆規模の)自然言語処理モデルの総称です。

技術的基盤:Transformerとスケーリング則

2017年にGoogleが発表したTransformer(トランスフォーマー)というアーキテクチャを基盤としています。
LLMには「スケーリング則(Scaling Laws)」という経験則があり、「データ量」「パラメータ数」「計算量」を増やせば増やすほど、性能がベキ乗則に従って向上することが分かっています。この法則に従い、モデルを巨大化させる競争が加速しました。

学習の3ステップ

現代のLLM(ChatGPTなど)は、主に以下のプロセスで作られます。

  1. 事前学習(Pre-training)インターネット上の大量のテキストを読み込み、「次の単語を予測する(Next Token Prediction)」能力を身につける。
  2. ファインチューニング(Fine-tuning)質問への答え方や要約の仕方など、特定のタスクを学習させる。
  3. RLHF(Reinforcement Learning from Human Feedback):人間のフィードバックを用いた強化学習を行い、より自然で安全な回答ができるように調整する。

G検定対策

出題ポイント

  • 基本原理:確率的に「次に来る単語(トークン)」を予測する自己回帰モデルである。
  • 重要法則:スケーリング則(モデルを大きくすれば賢くなる)。
  • 課題:ハルシネーション(Hallucination)。もっともらしい嘘をつく現象のこと。
  • 代表例:GPTシリーズ(OpenAI)、Gemini(Google)、Llama(Meta)、Claude(Anthropic)。

よくあるひっかけ問題

  • × LLMは、事実データベースを参照して常に正確な回答を行う
    (解説)データベース検索(RAGなどを除く)ではなく、学習した確率分布に基づいて単語をつなげているだけなので、平気で嘘をつきます(ハルシネーション)。
  • × RNNやLSTMが基盤となっている
    (解説)古い技術です。現在は「Transformer」が基盤です。
タイトルとURLをコピーしました