宝くじ仮説 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

宝くじ仮説 (The Lottery Ticket Hypothesis)

解説：巨大モデルは「くじ引き会場」である

2018年、MITの研究者らが提唱した「宝くじ仮説」は、ニューラルネットワークの常識を覆す面白い考え方です。

通常、ディープラーニングではパラメータ数が多い（モデルが大きい）ほど性能が良いとされます。
しかし、この仮説では「パラメータの90%以上は実は不要（ハズレくじ）」であり、モデルの中に偶然含まれている「ごく一部の『当たり』の初期値を持つサブネットワーク」だけが、学習の成功に貢献していると主張します。

🎫 宝くじのメタファー

巨大なネットワーク： 大量の宝くじを買うこと（数打ちゃ当たる作戦）。
初期化（重みのランダム設定）： くじを引くこと。
学習成功： その中に「当たりくじ（Winning Ticket）」が含まれていたということ。

つまり、「最初から『当たりくじ』だけを特定して、それだけを学習させれば、計算コストは1/10以下で済むのに、精度は巨大モデルと同じになる」という可能性を示したのです。

「当たり」を見つける方法

では、どうやってその「当たり」を見つけるのでしょうか？一般的には以下のような手順で探します。

通常学習： まず巨大なモデル全体を学習させる。
枝刈り（Pruning）： 重みが小さい（役に立っていない）結合を削除する。
巻き戻し（Rewinding）： 残った結合（当たり候補）の重みを、「学習前の初期値」に戻す。
再学習： そのスカスカの状態（サブネットワーク）でもう一度学習させると、元の巨大モデルと同じ精度が出る。

G検定対策

出題ポイント

定義：「密な（巨大な）ニューラルネットワークには、単独で学習させても同等の精度を達成できる小さな部分ネットワーク（サブネットワーク）が含まれている」という仮説。
初期値の重要性：どの結合を残すかだけでなく、「初期値が何だったか」が極めて重要である。ランダムに再初期化してしまうと、当たりくじの効果は消える。

ひっかけ対策

× 宝くじ仮説は、どんな初期値からでも学習できることを示した
（解説）逆です。「特定の『運の良い初期値』を持つ経路だけが学習に成功する」という主張です。
× モデルを小さくしてから学習すれば良い
（解説）最初から小さいモデルを用意すると、その中に「当たりくじ」が含まれる確率が下がってしまい、学習に失敗します。「最初は大きく作って（くじを沢山買って）、後から当たりだけ残す」のがポイントです。