LLM最適化・軽量化

モデルプルーニング もでるぷるーにんぐ

モデルプルーニングModel Pruning枝刈りスパース化重み削除軽量化
モデルプルーニングについて教えて

簡単に言うとこんな感じ!

木の不要な枝を切り落とすように、AIのニューラルネットワークの「あまり使われない重み」を削除する技術だよ!重みの数を減らすことでモデルが軽くなって速くなる。「必要最小限の神経回路で最大限の性能を出す」効率化の手法なんだ!


モデルプルーニングとは

モデルプルーニング(Model Pruning) とは、学習済みニューラルネットワークの重みの一部を削除(ゼロに設定)または構造的に除去することで、モデルを軽量化・高速化する技術です。「枝刈り(Pruning)」の名称の通り、植木の余分な枝を切るイメージです。

ニューラルネットワークには冗長なパラメータが多く存在し、それらを削除してもモデルの性能にほとんど影響しない場合があります。例えばGPT-3(175B)の重みの多くはほぼゼロに近い値であり、それらを削除しても多くのタスクで性能低下は軽微です。量子化と組み合わせることで、さらなる圧縮効果が得られます。


プルーニングの種類

種類内容圧縮効率ハードウェア対応
非構造的プルーニング個々の重みをゼロに設定高いGPUでの高速化が難しい
構造的プルーニングニューロン・層を丸ごと削除中程度通常のGPUで高速化可能
ヘッドプルーニングアテンションヘッドを削除中程度Transformerに特化
レイヤープルーニングTransformerの層を削除低〜中実装が簡単

歴史と背景

  • 1990年代:LeCunら「Optimal Brain Damage」でプルーニングの理論的基礎
  • 2015年:「Deep Compression」論文でCNNの90%を削除しつつ性能維持を実証
  • 2021年:「Lottery Ticket Hypothesis」でネットワーク内の「当たりくじ(重要サブネット)」が存在することが理論化
  • 2023年:SparseGPTがLLMへの非構造的プルーニングを学習不要で実現
  • 現在:量子化ほど普及していないが、SparseGPT・Winoを中心に研究が活発

プルーニングと量子化の比較

モデル圧縮の2大アプローチ:

プルーニング(Pruning):
  「重みの数を減らす」
  → パラメータ数: 大幅削減
  → ハードウェア対応: 非構造的は難しい
  → 品質低下: 適切に行えば小

量子化(Quantization):
  「重みのビット数を減らす」
  → パラメータ数: 変わらない
  → ハードウェア対応: 良好(INT8/INT4は広くサポート)
  → 品質低下: 適切な手法で最小化可能

→ 現在の主流は量子化。プルーニングは研究段階が多い

関連用語

  • 量子化 — プルーニングと並ぶモデル軽量化の主要手法
  • GPTQ — LLMへの量子化手法(プルーニングの対比技術)
  • モデル蒸留 — プルーニングと組み合わせるモデル圧縮手法
  • Mixture of Experts — 選択的活性化でプルーニングと似た効率化を実現するアーキテクチャ