Mixture of Experts(MoE) みくすちゃーおぶえきすぱーつ
Mixture of ExpertsMoEスパース活性化エキスパートMixtralスケーリング
Mixture of Expertsについて教えて
簡単に言うとこんな感じ!
「専門家チーム制」みたいなAIアーキテクチャだよ!入力に応じて「これは数学の問題だから数学専門家チームに渡そう」と振り分け係(ルーター)が担当エキスパートを選ぶ仕組み。パラメータ数を増やしつつ計算量は抑えられる魔法のような技術なんだ!
Mixture of Experts(MoE)とは
Mixture of Experts(MoE) とは、複数の「エキスパート」(FFNなどのサブネットワーク)を持ち、各入力に対してルーターが最適なエキスパートを選択してアクティベート(活性化)するアーキテクチャです。全エキスパートを常に使うのではなく、トークンごとに一部だけを使う「スパース活性化」が特徴です。
例えばエキスパートが8つあって上位2つのみをアクティベートする場合、計算量は通常モデルの約1/4で済みながら、パラメータ総数は8倍に増やせます。GPT-4やGeminiもMoE構造を採用していると推測されており、効率よくスケールアップする手段として注目されています。
MoEの仕組み
通常のTransformer層:
入力 → [FFN] → 出力(全トークン同じFFNを使用)
MoEのTransformer層:
入力 → [ルーター(Gate)] → エキスパート選択(例:上位2つ)
↓ ↓
[Expert 1] ... [Expert 8]
↓
選択されたエキスパートの加重平均 → 出力
ルーターはSoftmaxで各エキスパートのスコアを計算し
スコア上位k個のエキスパートのみアクティベート
歴史と背景
- 1991年:Jacobs et al.がMixture of Experts概念を提案(ニューラルネット黎明期)
- 2017年:Google「Outrageously Large Neural Networks」でLSTMへのMoE適用
- 2022年:Google「Switch Transformer」でTransformerへのMoE大規模適用を実証
- 2023年12月:Mistral AIが「Mixtral 8x7B」を公開し、オープンMoEが現実的に
- 現在:GPT-4・Gemini Ultra・Grok等がMoEを採用(一部は推定)
Dense vs MoEの比較
| 項目 | Dense(通常) | MoE |
|---|---|---|
| パラメータ数 | 全パラメータが有効 | 総数は多いが一部のみ使用 |
| 推論計算量 | パラメータ数に比例 | 活性化エキスパート分のみ |
| 学習の難しさ | 標準的 | エキスパートの偏り防止が課題 |
| 代表モデル | LLaMA、GPT-3 | Mixtral、GPT-4(推定) |
関連用語
- フィードフォワード層 — MoEがエキスパートとして複数持つニューラルネット層
- スケーリング則 — MoEが効率的なスケーリングを実現する背景理論
- スペキュレイティブデコーディング — MoEと組み合わせる推論高速化技術
- 量子化 — MoEの大量のパラメータをメモリ効率よく扱うための技術