LLMアーキテクチャ

Mixture of Experts（MoE）みくすちゃーおぶえきすぱーつ

Mixture of ExpertsMoEスパース活性化エキスパートMixtralスケーリング

Mixture of Expertsについて教えて

簡単に言うとこんな感じ！

「専門家チーム制」みたいなAIアーキテクチャだよ！入力に応じて「これは数学の問題だから数学専門家チームに渡そう」と振り分け係（ルーター）が担当エキスパートを選ぶ仕組み。パラメータ数を増やしつつ計算量は抑えられる魔法のような技術なんだ！

Mixture of Experts（MoE）とは

Mixture of Experts（MoE） とは、複数の「エキスパート」（FFNなどのサブネットワーク）を持ち、各入力に対してルーターが最適なエキスパートを選択してアクティベート（活性化）するアーキテクチャです。全エキスパートを常に使うのではなく、トークンごとに一部だけを使う「スパース活性化」が特徴です。

例えばエキスパートが8つあって上位2つのみをアクティベートする場合、計算量は通常モデルの約1/4で済みながら、パラメータ総数は8倍に増やせます。GPT-4やGeminiもMoE構造を採用していると推測されており、効率よくスケールアップする手段として注目されています。

MoEの仕組み

通常のTransformer層:
  入力 → [FFN] → 出力（全トークン同じFFNを使用）

MoEのTransformer層:
  入力 → [ルーター（Gate）] → エキスパート選択（例：上位2つ）
           ↓                ↓
       [Expert 1]  ...  [Expert 8]
           ↓
  選択されたエキスパートの加重平均 → 出力

ルーターはSoftmaxで各エキスパートのスコアを計算し
スコア上位k個のエキスパートのみアクティベート

歴史と背景

1991年：Jacobs et al.がMixture of Experts概念を提案（ニューラルネット黎明期）
2017年：Google「Outrageously Large Neural Networks」でLSTMへのMoE適用
2022年：Google「Switch Transformer」でTransformerへのMoE大規模適用を実証
2023年12月：Mistral AIが「Mixtral 8x7B」を公開し、オープンMoEが現実的に
現在：GPT-4・Gemini Ultra・Grok等がMoEを採用（一部は推定）

Dense vs MoEの比較

項目	Dense（通常）	MoE
パラメータ数	全パラメータが有効	総数は多いが一部のみ使用
推論計算量	パラメータ数に比例	活性化エキスパート分のみ
学習の難しさ	標準的	エキスパートの偏り防止が課題
代表モデル	LLaMA、GPT-3	Mixtral、GPT-4（推定）

Mixture of Experts（MoE）とは

MoEの仕組み

歴史と背景

Dense vs MoEの比較

関連用語