スケーリング則 すけーりんぐそく
スケーリング則Scaling LawsChinchillaパラメータ数計算量モデルサイズ
スケーリング則について教えて
スケーリング則とは
スケーリング則(Scaling Laws) とは、LLMの性能(損失値)がモデルのパラメータ数・学習データ量・計算量(FLOP)の3要素と、べき乗則(Power Law)の関係で予測可能であることを示した経験的な法則です。2020年にOpenAIが発表した論文で体系化されました。
「モデルを10倍大きくすれば性能は○%向上する」「データを10倍にすれば○%向上する」という形で定量的な予測が立てられます。これにより研究者はAI開発の方向性(パラメータを増やすべきか、データを増やすべきか)を事前に計画できるようになりました。重要なのは、精度向上のためにはパラメータ・データ・計算の3つをバランスよく増やす必要があるという点です。
OpenAI vs Chinchillaのスケーリング則
| 論文 | 発表 | 結論 |
|---|---|---|
| OpenAI Scaling Laws | 2020 | パラメータ数優先でスケールアップ |
| Chinchilla(DeepMind) | 2022 | データとパラメータを均等に増やすべき |
Chinchillaの最適比率(Hoffmann et al.):
最適データ量 ≈ 20 × パラメータ数
例: 70Bパラメータモデルには
20 × 70B = 1.4T(1兆4000億)トークンのデータが最適
→ GPT-3(175B)はデータが少なすぎた可能性を示唆
歴史と背景
- 2020年:OpenAI「Scaling Laws for Neural Language Models」を発表
- 2022年:DeepMind「Chinchilla」論文でデータ重視の最適スケーリングを提唱
- 2023年:LLaMA・Falcon等がChinchillaスケーリングで高効率なオープンモデルを実現
- 現在:スケーリング則は依然有効だが、「スケーリングの壁」や「データ枯渇」の議論も進行中
3要素のスケーリングバランス
【3要素の関係】
計算量(C) ≈ 6 × パラメータ数(N) × データ量(D)
最適なNとDの関係(Chinchilla):
N_opt ∝ C^0.5
D_opt ∝ C^0.5
つまり: 計算予算が100倍になったら
→ パラメータも10倍、データも10倍が最適
→ パラメータだけを100倍にしても非効率
関連用語
- 事前学習 — スケーリング則が適用される主要な学習フェーズ
- Mixture of Experts — スケーリングをより効率化するアーキテクチャ
- トークン — スケーリング則でのデータ量の単位
- モデル蒸留 — 大規模モデルの知識を小規模モデルに転移する技術