Web教科書

事前学習

事前学習と学習済みモデル

解説:AIの「義務教育」期間

事前学習(Pre-training)とは、AIモデルに対し、特定のタスク(例えば「犬と猫の分類」など)を解かせる前に、あらかじめ大規模なデータセット(ImageNetやWikipediaなど)を使って「一般的な特徴や知識」を学習させておくことです。

人間で言えば、専門学校に入る前に「小学校〜高校」で基礎学力(言葉や計算、物の見方)を身につける期間にあたります。

この事前学習を終えたモデルを「学習済みモデル(Pre-trained Model)」と呼びます。

これを利用することで、AI開発者はゼロから学習させる必要がなくなり、「巨人の肩に乗る」ように高性能なAIを短時間で作ることができます。

代表的な事前学習済みモデル

分野 モデル名 特徴
画像認識 VGG, ResNet, EfficientNet ImageNet」などの巨大画像データで学習済み。
物の形や模様を理解している。
自然言語処理 BERT, GPTシリーズ Web上の大量のテキストで学習済み。
言葉の意味や文脈を理解している。

G検定対策

出題ポイント

  • 学習データ:事前学習には、人間が正解を付けるのが不可能なほどの大量データ(Web上の全テキストなど)が使われるため、主に自己教師あり学習(教師なし学習)」の手法が用いられる。(例:穴埋め問題など)
  • メリット:ファインチューニング時に必要な教師データが少なくて済む。学習時間が大幅に短縮される。
  • BERT / GPT:これらは「事前学習済みモデル」の代表格として頻出。

ひっかけ対策

  • × 事前学習は必ず人間がラベル付けした教師データで行う
    (解説)ラベル付けコストがかからない「ラベルなしデータ」を使うのが一般的です。
  • × 特定のタスク専用に作られたモデルである
    (解説)事前学習済みモデルは「汎用的」な知識を持っています。特定のタスク(分類や翻訳など)に特化させるのは、その後のファインチューニングの役割です。
タイトルとURLをコピーしました