LLMアーキテクチャ

Mixture of Experts(MoE) みくすちゃーおぶえきすぱーつ

Mixture of ExpertsMoEスパース活性化エキスパートMixtralスケーリング
Mixture of Expertsについて教えて

簡単に言うとこんな感じ!

「専門家チーム制」みたいなAIアーキテクチャだよ!入力に応じて「これは数学の問題だから数学専門家チームに渡そう」と振り分け係(ルーター)が担当エキスパートを選ぶ仕組み。パラメータ数を増やしつつ計算量は抑えられる魔法のような技術なんだ!


Mixture of Experts(MoE)とは

Mixture of Experts(MoE) とは、複数の「エキスパート」(FFNなどのサブネットワーク)を持ち、各入力に対してルーターが最適なエキスパートを選択してアクティベート(活性化)するアーキテクチャです。全エキスパートを常に使うのではなく、トークンごとに一部だけを使う「スパース活性化」が特徴です。

例えばエキスパートが8つあって上位2つのみをアクティベートする場合、計算量は通常モデルの約1/4で済みながら、パラメータ総数は8倍に増やせます。GPT-4やGeminiもMoE構造を採用していると推測されており、効率よくスケールアップする手段として注目されています。


MoEの仕組み

通常のTransformer層:
  入力 → [FFN] → 出力(全トークン同じFFNを使用)

MoEのTransformer層:
  入力 → [ルーター(Gate)] → エキスパート選択(例:上位2つ)
           ↓                ↓
       [Expert 1]  ...  [Expert 8]

  選択されたエキスパートの加重平均 → 出力

ルーターはSoftmaxで各エキスパートのスコアを計算し
スコア上位k個のエキスパートのみアクティベート

歴史と背景

  • 1991年:Jacobs et al.がMixture of Experts概念を提案(ニューラルネット黎明期)
  • 2017年:Google「Outrageously Large Neural Networks」でLSTMへのMoE適用
  • 2022年:Google「Switch Transformer」でTransformerへのMoE大規模適用を実証
  • 2023年12月:Mistral AIが「Mixtral 8x7B」を公開し、オープンMoEが現実的に
  • 現在:GPT-4・Gemini Ultra・Grok等がMoEを採用(一部は推定)

Dense vs MoEの比較

項目Dense(通常)MoE
パラメータ数全パラメータが有効総数は多いが一部のみ使用
推論計算量パラメータ数に比例活性化エキスパート分のみ
学習の難しさ標準的エキスパートの偏り防止が課題
代表モデルLLaMA、GPT-3Mixtral、GPT-4(推定)

関連用語