LLM最適化・軽量化

AWQ えーだぶりゅーきゅー

AWQActivation-aware Weight Quantization量子化INT4重要重み保護軽量化

AWQについて教えて

簡単に言うとこんな感じ！

AIの重みの中でも「本当に重要な1%」を高精度のまま残して、残り99%を4ビットに圧縮する量子化手法だよ！重要な重みは活性化値が大きいものを使って特定するのがミソ。GPTQと並ぶ高品質なINT4量子化手法で、特に推論速度で有利なんだ！

AWQとは

AWQ（Activation-aware Weight Quantization） とは、活性化値（Activation）の大きさを基準に「重要な重み」を特定し、その重みを保護（高精度で保持）しながらINT4量子化を行う手法です。2023年にMIT・Ji Lin et al.が提案しました。

LLMの重みの中には「これを量子化すると性能が大幅に落ちる」という重要な重みが約1%存在します。AWQはこれを入力データの活性化値から特定し、重要な重みはスケールを調整して影響を軽減することで高品質な量子化を実現します。GPTQとの比較では量子化の速度が速く、また「W4A8」（重みINT4・活性化INT8）などのハードウェア最適化した形式に対応しやすい点が特徴です。

AWQのアプローチ

観察: LLMの重みの約1%が性能に大きく影響する
  → この「重要な重み」は、対応する活性化値が大きいもの

AWQの対処:
  1. 少量のキャリブレーションデータで活性化値を計測
  2. 活性化が大きい重み（≈1%）を特定
  3. 重要な重みは量子化前にスケールを調整
     （重みを小さくして活性化を大きくする等価変換）
  4. スケール調整済みの重みをINT4量子化
  → 重要な重みの影響を活性化側で吸収し品質を保つ

歴史と背景

2023年6月：MITのHan Lab「AWQ: Activation-aware Weight Quantization」を発表
2023年後半：AutoAWQライブラリが公開され、一般利用が可能に
2023年：VLLMがAWQをサポートし高速推論と組み合わせ可能に
現在：GPTQ・AWQの両方が量子化の標準として並立して使われる

GPTQとAWQの比較

比較項目	GPTQ	AWQ
核心アプローチ	量子化誤差の後処理補正	重要重みの保護
量子化速度	遅い（最適化計算が多い）	速い
推論速度	良い	やや高速（ハードウェア親和性高）
品質	高い	同程度〜やや高い
実装ライブラリ	AutoGPTQ	AutoAWQ
W4A8対応	限定的	対応しやすい

AWQとは

AWQのアプローチ

歴史と背景

GPTQとAWQの比較

関連用語