LLM最適化・軽量化

GPTQ じーぴーてぃーきゅー

GPTQ量子化INT4Post-Training QuantizationLLM重みのみ量子化

GPTQについて教えて

簡単に言うとこんな感じ！

大型LLMをINT4に圧縮するための「賢い量子化アルゴリズム」だよ！ただ丸めるだけでなく、丸め誤差を他の重みで補正しながら精度を保つ工夫をするんだ。学習不要で使えて、70Bモデルがゲーム用GPUで動くようにしてくれる革命的な技術！

GPTQとは

GPTQ（GPT Quantization） とは、学習後の大規模言語モデルをINT4（4ビット整数）に圧縮するためのPost-Training Quantization（PTQ）手法です。2023年にFrantar et al.が発表し、それまで実用困難だったLLMのINT4量子化を現実のものにしました。

GPTQの核心は、重みを量子化する際の誤差を、同じ層の他の重みで「補正」するアプローチです。最適化問題としてレイヤーごとに誤差を最小化することで、単純な丸め処理より大幅に品質低下を抑えられます。少量のキャリブレーションデータ（量子化の調整用データ）が必要ですが、再学習は不要なため、数時間〜1日程度で量子化が完了します。

GPTQの仕組み

通常の量子化（単純丸め）:
  FP16重み: [3.7, -1.2, 0.8, ...]
  INT4変換: [4,   -1,   1,   ...]  ← 丸め誤差が蓄積

GPTQの補正あり量子化:
  w1を量子化した誤差をw2以降で補正
  → ヘッシアン行列（二次微分情報）を使って最適な補正量を計算
  → 結果として出力の変化を最小化

使用データ:
  数百〜数千件のキャリブレーションデータ（Wikitext等）
  でキャリブレーションしてから量子化

歴史と背景

2022年：OBQ（Optimal Brain Quantization）がGPTQの前身となる手法を提案
2023年3月：GPTQ論文発表、175B GPT-3クラスモデルのINT4量子化を実証
2023年後半：AutoGPTQ・ExLlamaなどのライブラリで一般利用が普及
現在：HuggingFace Transformersに統合、GPTQ形式モデルがHugging Face Hubで多数公開

GPTQとAWQの比較

項目	GPTQ	AWQ
量子化品質	高い	やや高い
速度	量子化に時間かかる	GPTQより高速
推論速度	良い	良い
手法の特徴	誤差の後処理補正	重要重みを保護
実装	AutoGPTQ	AutoAWQ

GPTQとは

GPTQの仕組み

歴史と背景

GPTQとAWQの比較

関連用語