事前学習 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

事前学習と学習済みモデル

事前学習（Pre-training）とは、AIモデルに対し、特定のタスク（例えば「犬と猫の分類」など）を解かせる前に、あらかじめ大規模なデータセット（ImageNetやWikipediaなど）を使って「一般的な特徴や知識」を学習させておくことです。

人間で言えば、専門学校に入る前に「小学校〜高校」で基礎学力（言葉や計算、物の見方）を身につける期間にあたります。

この事前学習を終えたモデルを「学習済みモデル（Pre-trained Model）」と呼びます。

これを利用することで、AI開発者はゼロから学習させる必要がなくなり、「巨人の肩に乗る」ように高性能なAIを短時間で作ることができます。

分野	モデル名	特徴
画像認識	VGG, ResNet, EfficientNet	「ImageNet」などの巨大画像データで学習済み。物の形や模様を理解している。
自然言語処理	BERT, GPTシリーズ	Web上の大量のテキストで学習済み。言葉の意味や文脈を理解している。

学習データ：事前学習には、人間が正解を付けるのが不可能なほどの大量データ（Web上の全テキストなど）が使われるため、主に「自己教師あり学習（教師なし学習）」の手法が用いられる。（例：穴埋め問題など）
メリット：ファインチューニング時に必要な教師データが少なくて済む。学習時間が大幅に短縮される。
BERT / GPT：これらは「事前学習済みモデル」の代表格として頻出。

× 事前学習は必ず人間がラベル付けした教師データで行う
（解説）ラベル付けコストがかからない「ラベルなしデータ」を使うのが一般的です。
× 特定のタスク専用に作られたモデルである
（解説）事前学習済みモデルは「汎用的」な知識を持っています。特定のタスク（分類や翻訳など）に特化させるのは、その後のファインチューニングの役割です。