LLM最適化・軽量化

AWQ えーだぶりゅーきゅー

AWQActivation-aware Weight Quantization量子化INT4重要重み保護軽量化
AWQについて教えて

簡単に言うとこんな感じ!

AIの重みの中でも「本当に重要な1%」を高精度のまま残して、残り99%を4ビットに圧縮する量子化手法だよ!重要な重みは活性化値が大きいものを使って特定するのがミソ。GPTQと並ぶ高品質なINT4量子化手法で、特に推論速度で有利なんだ!


AWQとは

AWQ(Activation-aware Weight Quantization) とは、活性化値(Activation)の大きさを基準に「重要な重み」を特定し、その重みを保護(高精度で保持)しながらINT4量子化を行う手法です。2023年にMIT・Ji Lin et al.が提案しました。

LLMの重みの中には「これを量子化すると性能が大幅に落ちる」という重要な重みが約1%存在します。AWQはこれを入力データの活性化値から特定し、重要な重みはスケールを調整して影響を軽減することで高品質な量子化を実現します。GPTQとの比較では量子化の速度が速く、また「W4A8」(重みINT4・活性化INT8)などのハードウェア最適化した形式に対応しやすい点が特徴です。


AWQのアプローチ

観察: LLMの重みの約1%が性能に大きく影響する
  → この「重要な重み」は、対応する活性化値が大きいもの

AWQの対処:
  1. 少量のキャリブレーションデータで活性化値を計測
  2. 活性化が大きい重み(≈1%)を特定
  3. 重要な重みは量子化前にスケールを調整
     (重みを小さくして活性化を大きくする等価変換)
  4. スケール調整済みの重みをINT4量子化
  → 重要な重みの影響を活性化側で吸収し品質を保つ

歴史と背景

  • 2023年6月:MITのHan Lab「AWQ: Activation-aware Weight Quantization」を発表
  • 2023年後半:AutoAWQライブラリが公開され、一般利用が可能に
  • 2023年:VLLMがAWQをサポートし高速推論と組み合わせ可能に
  • 現在:GPTQ・AWQの両方が量子化の標準として並立して使われる

GPTQとAWQの比較

比較項目GPTQAWQ
核心アプローチ量子化誤差の後処理補正重要重みの保護
量子化速度遅い(最適化計算が多い)速い
推論速度良いやや高速(ハードウェア親和性高)
品質高い同程度〜やや高い
実装ライブラリAutoGPTQAutoAWQ
W4A8対応限定的対応しやすい

関連用語