半教師あり学習 & 自己教師あり学習

ディープラーニングには大量の「正解ラベル付きデータ」が必要ですが、全ての画像や文章に人間がタグ付けを行うのはコストがかかりすぎます。

そこで、世の中に溢れている「正解ラベルのない大量のデータ」を有効活用するために、以下の2つのアプローチが開発されました。

「少しのヒント」で、残りを推測する。

少量の「ラベルありデータ」と、大量の「ラベルなしデータ」を組み合わせて学習させる手法です。
人間が教えた少数の正解を手がかりにして、AIが残りの大量のデータの分類境界線を推測します。

仕組みのイメージ

「問題」を自分で作って、自分で解く。

ラベルなしデータしかなくても、「データそのもの」からAIが自分で「正解（教師ラベル）」を作り出し、それを解くことで学習する手法です。
現在のAIブーム（特にBERTやGPTなどの大規模言語モデル）を支えている最も重要な技術です。

プレテキストタスク（Pretext Task）
自己教師あり学習で、AIに解かせる「仮の問題」のことです。

これらの問題を解く特訓をすることで、AIは「言葉の意味」や「物の形」といった深い特徴を勝手に学習します。

手法	データの状態	教師ラベルの出処
半教師あり学習	少量の「ラベルあり」＋大量の「ラベルなし」	人間が付けた一部のラベルを頼りにする。
自己教師あり学習	すべて「ラベルなし」	データからAI自身（自己）が自動生成する。

自己教師あり学習：「プレテキストタスク（Pretext Task）」という用語と、「BERTなどの事前学習に使われる手法」であることをセットで覚える。
代表例：
- オートエンコーダ：入力と同じものを出力するように学習し、データの特徴を圧縮する（元祖・自己教師あり学習）。
- 対照学習（Contrastive Learning）：SimCLRなどが有名。同じ画像の加工品（ポジティブ）は近づけ、違う画像（ネガティブ）は遠ざける学習法。