半教師あり学習 & 自己教師あり学習
解説:データの「宝の持ち腐れ」を防ぐ技術
ディープラーニングには大量の「正解ラベル付きデータ」が必要ですが、全ての画像や文章に人間がタグ付けを行うのはコストがかかりすぎます。
そこで、世の中に溢れている「正解ラベルのない大量のデータ」を有効活用するために、以下の2つのアプローチが開発されました。
1. 半教師あり学習 (Semi-supervised Learning)
「少しのヒント」で、残りを推測する。
少量の「ラベルありデータ」と、大量の「ラベルなしデータ」を組み合わせて学習させる手法です。
人間が教えた少数の正解を手がかりにして、AIが残りの大量のデータの分類境界線を推測します。
仕組みのイメージ
- 人間:100枚の画像のうち、10枚だけ「これは犬」「これは猫」と教える。
- AI:「このラベルのない画像は、さっき教えてもらった犬の画像に特徴が似ているから、たぶん犬だろう」と推測(擬似ラベル)しながら、全体の学習を進める。
2. 自己教師あり学習 (Self-supervised Learning)
「問題」を自分で作って、自分で解く。
ラベルなしデータしかなくても、「データそのもの」からAIが自分で「正解(教師ラベル)」を作り出し、それを解くことで学習する手法です。
現在のAIブーム(特にBERTやGPTなどの大規模言語モデル)を支えている最も重要な技術です。
プレテキストタスク(Pretext Task)
自己教師あり学習で、AIに解かせる「仮の問題」のことです。
自己教師あり学習で、AIに解かせる「仮の問題」のことです。
- 穴埋め問題(BERT):文章の一部を隠して、「隠された単語は何か?」を当てさせる。
(正解は元の文章に書いてあるので、人間が作る必要がない!) - ジグソーパズル:画像をバラバラにして、「元の配置」を当てさせる。
- 画像の回転予測:画像を勝手に回転させて、「何度回転させたか?」を当てさせる。
これらの問題を解く特訓をすることで、AIは「言葉の意味」や「物の形」といった深い特徴を勝手に学習します。
違いのまとめ表(ここが出ます!)
| 手法 | データの状態 | 教師ラベルの出処 |
|---|---|---|
| 半教師あり学習 | 少量の「ラベルあり」 + 大量の「ラベルなし」 |
人間が付けた一部のラベルを頼りにする。 |
| 自己教師あり学習 | すべて「ラベルなし」 | データからAI自身(自己)が自動生成する。 |
G検定対策
出題ポイント
- 自己教師あり学習:「プレテキストタスク(Pretext Task)」という用語と、「BERTなどの事前学習に使われる手法」であることをセットで覚える。
- 代表例:
- オートエンコーダ:入力と同じものを出力するように学習し、データの特徴を圧縮する(元祖・自己教師あり学習)。
- 対照学習(Contrastive Learning):SimCLRなどが有名。同じ画像の加工品(ポジティブ)は近づけ、違う画像(ネガティブ)は遠ざける学習法。
ひっかけ対策
- × 自己教師あり学習は、人間が教師データを作る
(解説)「自己」という名前の通り、データ自身から機械的に正解を作ります。人間は関与しません。 - × 半教師あり学習は、教師なし学習の一種である
(解説)一部とはいえ「教師データ(正解ラベル)」を使うので、教師なし学習とは区別されます。
