LLM(Large Language Model:大規模言語モデル)
解説
LLM(大規模言語モデル)とは、計算量・データ量・パラメータ数が巨大な(数億〜数兆規模の)自然言語処理モデルの総称です。
技術的基盤:Transformerとスケーリング則
2017年にGoogleが発表した「Transformer(トランスフォーマー)」というアーキテクチャを基盤としています。
LLMには「スケーリング則(Scaling Laws)」という経験則があり、「データ量」「パラメータ数」「計算量」を増やせば増やすほど、性能がベキ乗則に従って向上することが分かっています。この法則に従い、モデルを巨大化させる競争が加速しました。
学習の3ステップ
現代のLLM(ChatGPTなど)は、主に以下のプロセスで作られます。
- 事前学習(Pre-training):インターネット上の大量のテキストを読み込み、「次の単語を予測する(Next Token Prediction)」能力を身につける。
- ファインチューニング(Fine-tuning):質問への答え方や要約の仕方など、特定のタスクを学習させる。
- RLHF(Reinforcement Learning from Human Feedback):人間のフィードバックを用いた強化学習を行い、より自然で安全な回答ができるように調整する。
G検定対策
出題ポイント
- 基本原理:確率的に「次に来る単語(トークン)」を予測する自己回帰モデルである。
- 重要法則:スケーリング則(モデルを大きくすれば賢くなる)。
- 課題:ハルシネーション(Hallucination)。もっともらしい嘘をつく現象のこと。
- 代表例:GPTシリーズ(OpenAI)、Gemini(Google)、Llama(Meta)、Claude(Anthropic)。
よくあるひっかけ問題
- × LLMは、事実データベースを参照して常に正確な回答を行う
(解説)データベース検索(RAGなどを除く)ではなく、学習した確率分布に基づいて単語をつなげているだけなので、平気で嘘をつきます(ハルシネーション)。 - × RNNやLSTMが基盤となっている
(解説)古い技術です。現在は「Transformer」が基盤です。
