LLM最適化・軽量化

GPTQ じーぴーてぃーきゅー

GPTQ量子化INT4Post-Training QuantizationLLM重みのみ量子化
GPTQについて教えて

簡単に言うとこんな感じ!

大型LLMをINT4に圧縮するための「賢い量子化アルゴリズム」だよ!ただ丸めるだけでなく、丸め誤差を他の重みで補正しながら精度を保つ工夫をするんだ。学習不要で使えて、70Bモデルがゲーム用GPUで動くようにしてくれる革命的な技術!


GPTQとは

GPTQ(GPT Quantization) とは、学習後の大規模言語モデルをINT4(4ビット整数)に圧縮するためのPost-Training Quantization(PTQ)手法です。2023年にFrantar et al.が発表し、それまで実用困難だったLLMのINT4量子化を現実のものにしました。

GPTQの核心は、重みを量子化する際の誤差を、同じ層の他の重みで「補正」するアプローチです。最適化問題としてレイヤーごとに誤差を最小化することで、単純な丸め処理より大幅に品質低下を抑えられます。少量のキャリブレーションデータ(量子化の調整用データ)が必要ですが、再学習は不要なため、数時間〜1日程度で量子化が完了します。


GPTQの仕組み

通常の量子化(単純丸め):
  FP16重み: [3.7, -1.2, 0.8, ...]
  INT4変換: [4,   -1,   1,   ...]  ← 丸め誤差が蓄積

GPTQの補正あり量子化:
  w1を量子化した誤差をw2以降で補正
  → ヘッシアン行列(二次微分情報)を使って最適な補正量を計算
  → 結果として出力の変化を最小化

使用データ:
  数百〜数千件のキャリブレーションデータ(Wikitext等)
  でキャリブレーションしてから量子化

歴史と背景

  • 2022年:OBQ(Optimal Brain Quantization)がGPTQの前身となる手法を提案
  • 2023年3月:GPTQ論文発表、175B GPT-3クラスモデルのINT4量子化を実証
  • 2023年後半:AutoGPTQ・ExLlamaなどのライブラリで一般利用が普及
  • 現在:HuggingFace Transformersに統合、GPTQ形式モデルがHugging Face Hubで多数公開

GPTQとAWQの比較

項目GPTQAWQ
量子化品質高いやや高い
速度量子化に時間かかるGPTQより高速
推論速度良い良い
手法の特徴誤差の後処理補正重要重みを保護
実装AutoGPTQAutoAWQ

関連用語

  • 量子化 — GPTQが属するモデル圧縮技術の大分類
  • INT8 / INT4量子化 — GPTQが実現するINT4の詳細
  • AWQ — GPTQと並ぶ高品質なINT4量子化手法
  • モデル蒸留 — 量子化と組み合わせるモデル軽量化の別手法