宝くじ仮説 (The Lottery Ticket Hypothesis)
解説:巨大モデルは「くじ引き会場」である
2018年、MITの研究者らが提唱した「宝くじ仮説」は、ニューラルネットワークの常識を覆す面白い考え方です。
通常、ディープラーニングではパラメータ数が多い(モデルが大きい)ほど性能が良いとされます。
しかし、この仮説では「パラメータの90%以上は実は不要(ハズレくじ)」であり、モデルの中に偶然含まれている「ごく一部の『当たり』の初期値を持つサブネットワーク」だけが、学習の成功に貢献していると主張します。
🎫 宝くじのメタファー
- 巨大なネットワーク: 大量の宝くじを買うこと(数打ちゃ当たる作戦)。
- 初期化(重みのランダム設定): くじを引くこと。
- 学習成功: その中に「当たりくじ(Winning Ticket)」が含まれていたということ。
つまり、「最初から『当たりくじ』だけを特定して、それだけを学習させれば、計算コストは1/10以下で済むのに、精度は巨大モデルと同じになる」という可能性を示したのです。
「当たり」を見つける方法
では、どうやってその「当たり」を見つけるのでしょうか? 一般的には以下のような手順で探します。
- 通常学習: まず巨大なモデル全体を学習させる。
- 枝刈り(Pruning): 重みが小さい(役に立っていない)結合を削除する。
- 巻き戻し(Rewinding): 残った結合(当たり候補)の重みを、「学習前の初期値」に戻す。
- 再学習: そのスカスカの状態(サブネットワーク)でもう一度学習させると、元の巨大モデルと同じ精度が出る。
G検定対策
出題ポイント
- 定義:「密な(巨大な)ニューラルネットワークには、単独で学習させても同等の精度を達成できる小さな部分ネットワーク(サブネットワーク)が含まれている」という仮説。
- 初期値の重要性:どの結合を残すかだけでなく、「初期値が何だったか」が極めて重要である。ランダムに再初期化してしまうと、当たりくじの効果は消える。
ひっかけ対策
- × 宝くじ仮説は、どんな初期値からでも学習できることを示した
(解説)逆です。「特定の『運の良い初期値』を持つ経路だけが学習に成功する」という主張です。 - × モデルを小さくしてから学習すれば良い
(解説)最初から小さいモデルを用意すると、その中に「当たりくじ」が含まれる確率が下がってしまい、学習に失敗します。「最初は大きく作って(くじを沢山買って)、後から当たりだけ残す」のがポイントです。
