Web教科書

量子化

量子化 (Quantization)

解説:データの「解像度」を落として軽くする

量子化(クオンタイゼーション)は、AIモデルのパラメータ(重み)や計算に使われる数値の「表現精度(ビット数)」をあえて落とすことで、モデルを軽量化・高速化する手法です。

通常、AIの学習や推論は「32bit 浮動小数点(FP32)」という非常に細かいメモリを使って計算されます。しかし、エッジデバイス(スマホなど)で動かす場合、そこまでの精密さはオーバースペックなことが多いです。
そこで、データを「粗く」することで、ファイルサイズを劇的に圧縮します。

定規の目盛りの例え

  • 量子化なし (FP32):
    「12.3456789 cm」まで測れる超精密な定規を使う。
    → 正確だが、データを記録するノート(メモリ)がすぐに埋まる。計算も大変。
  • 量子化あり (INT8):
    「12 cm」くらい大雑把な定規を使う。
    → 多少のズレ(誤差)は出るが、ノートは節約でき、計算も暗算レベルで爆速になる。

FP32 と INT8 の違い

最も一般的なのは、32bit(浮動小数点)から8bit(整数)への変換です。

規格 データサイズ 特徴
FP32
(Single Precision)
100% (基準) 通常のPCやクラウドでの学習に使われる。
非常に高精度。
FP16
(Half Precision)
50% (1/2) 「半精度」と呼ばれる。精度低下をほとんど起こさずに半分のサイズにできるため人気。
INT8
(Integer)
25% (1/4) 「整数」に変換する。劇的に軽くなるが、丸め誤差による精度低下のリスクがある。

G検定対策

出題ポイント

  • メリット:メモリ使用量が減る(例:FP32→INT8なら1/4になる)。計算速度が向上する。消費電力が減る。
  • デメリット:本来の細かい値を丸めてしまうため、「丸め誤差」が発生し、推論精度(正解率)がわずかに低下する可能性がある。
  • 混合精度学習 (Mixed Precision):学習時間を短縮するために、FP32とFP16を場所によって使い分けるテクニックも存在する。

ひっかけ対策

  • × 量子化すると精度が向上する
    (解説)情報を削ぎ落としているので、精度は基本的に「維持」または「わずかに低下」します。向上することはありません。
  • × 量子コンピュータを使う技術である
    (解説)名前が似ていますが無関係です。こちらは「Quantization(離散化)」であり、信号処理の用語です。
タイトルとURLをコピーしました