GPTQ じーぴーてぃーきゅー
GPTQ量子化INT4Post-Training QuantizationLLM重みのみ量子化
GPTQについて教えて
GPTQとは
GPTQ(GPT Quantization) とは、学習後の大規模言語モデルをINT4(4ビット整数)に圧縮するためのPost-Training Quantization(PTQ)手法です。2023年にFrantar et al.が発表し、それまで実用困難だったLLMのINT4量子化を現実のものにしました。
GPTQの核心は、重みを量子化する際の誤差を、同じ層の他の重みで「補正」するアプローチです。最適化問題としてレイヤーごとに誤差を最小化することで、単純な丸め処理より大幅に品質低下を抑えられます。少量のキャリブレーションデータ(量子化の調整用データ)が必要ですが、再学習は不要なため、数時間〜1日程度で量子化が完了します。
GPTQの仕組み
通常の量子化(単純丸め):
FP16重み: [3.7, -1.2, 0.8, ...]
INT4変換: [4, -1, 1, ...] ← 丸め誤差が蓄積
GPTQの補正あり量子化:
w1を量子化した誤差をw2以降で補正
→ ヘッシアン行列(二次微分情報)を使って最適な補正量を計算
→ 結果として出力の変化を最小化
使用データ:
数百〜数千件のキャリブレーションデータ(Wikitext等)
でキャリブレーションしてから量子化
歴史と背景
- 2022年:OBQ(Optimal Brain Quantization)がGPTQの前身となる手法を提案
- 2023年3月:GPTQ論文発表、175B GPT-3クラスモデルのINT4量子化を実証
- 2023年後半:AutoGPTQ・ExLlamaなどのライブラリで一般利用が普及
- 現在:HuggingFace Transformersに統合、GPTQ形式モデルがHugging Face Hubで多数公開
GPTQとAWQの比較
| 項目 | GPTQ | AWQ |
|---|---|---|
| 量子化品質 | 高い | やや高い |
| 速度 | 量子化に時間かかる | GPTQより高速 |
| 推論速度 | 良い | 良い |
| 手法の特徴 | 誤差の後処理補正 | 重要重みを保護 |
| 実装 | AutoGPTQ | AutoAWQ |
関連用語
- 量子化 — GPTQが属するモデル圧縮技術の大分類
- INT8 / INT4量子化 — GPTQが実現するINT4の詳細
- AWQ — GPTQと並ぶ高品質なINT4量子化手法
- モデル蒸留 — 量子化と組み合わせるモデル軽量化の別手法