量子化 (Quantization)
解説:データの「解像度」を落として軽くする
量子化(クオンタイゼーション)は、AIモデルのパラメータ(重み)や計算に使われる数値の「表現精度(ビット数)」をあえて落とすことで、モデルを軽量化・高速化する手法です。
通常、AIの学習や推論は「32bit 浮動小数点(FP32)」という非常に細かいメモリを使って計算されます。しかし、エッジデバイス(スマホなど)で動かす場合、そこまでの精密さはオーバースペックなことが多いです。
そこで、データを「粗く」することで、ファイルサイズを劇的に圧縮します。
定規の目盛りの例え
- 量子化なし (FP32):
「12.3456789 cm」まで測れる超精密な定規を使う。
→ 正確だが、データを記録するノート(メモリ)がすぐに埋まる。計算も大変。 - 量子化あり (INT8):
「12 cm」くらい大雑把な定規を使う。
→ 多少のズレ(誤差)は出るが、ノートは節約でき、計算も暗算レベルで爆速になる。
FP32 と INT8 の違い
最も一般的なのは、32bit(浮動小数点)から8bit(整数)への変換です。
| 規格 | データサイズ | 特徴 |
|---|---|---|
| FP32 (Single Precision) |
100% (基準) |
通常のPCやクラウドでの学習に使われる。 非常に高精度。 |
| FP16 (Half Precision) |
50% (1/2) | 「半精度」と呼ばれる。精度低下をほとんど起こさずに半分のサイズにできるため人気。 |
| INT8 (Integer) |
25% (1/4) | 「整数」に変換する。劇的に軽くなるが、丸め誤差による精度低下のリスクがある。 |
G検定対策
出題ポイント
- メリット:メモリ使用量が減る(例:FP32→INT8なら1/4になる)。計算速度が向上する。消費電力が減る。
- デメリット:本来の細かい値を丸めてしまうため、「丸め誤差」が発生し、推論精度(正解率)がわずかに低下する可能性がある。
- 混合精度学習 (Mixed Precision):学習時間を短縮するために、FP32とFP16を場所によって使い分けるテクニックも存在する。
ひっかけ対策
- × 量子化すると精度が向上する
(解説)情報を削ぎ落としているので、精度は基本的に「維持」または「わずかに低下」します。向上することはありません。 - × 量子コンピュータを使う技術である
(解説)名前が似ていますが無関係です。こちらは「Quantization(離散化)」であり、信号処理の用語です。
