LLM基礎

スケーリング則 すけーりんぐそく

スケーリング則Scaling LawsChinchillaパラメータ数計算量モデルサイズ
スケーリング則について教えて

簡単に言うとこんな感じ!

モデルを大きくして、データを増やして、計算をたくさんすれば、予測通りに性能が上がる」という法則だよ!「AIを賢くするには何をどれだけ増やせばいい?」という問いに対して、数学的な答えを出してくれる重要な理論なんだ!


スケーリング則とは

スケーリング則(Scaling Laws) とは、LLMの性能(損失値)がモデルのパラメータ数・学習データ量・計算量(FLOP)の3要素と、べき乗則(Power Law)の関係で予測可能であることを示した経験的な法則です。2020年にOpenAIが発表した論文で体系化されました。

「モデルを10倍大きくすれば性能は○%向上する」「データを10倍にすれば○%向上する」という形で定量的な予測が立てられます。これにより研究者はAI開発の方向性(パラメータを増やすべきか、データを増やすべきか)を事前に計画できるようになりました。重要なのは、精度向上のためにはパラメータ・データ・計算の3つをバランスよく増やす必要があるという点です。


OpenAI vs Chinchillaのスケーリング則

論文発表結論
OpenAI Scaling Laws2020パラメータ数優先でスケールアップ
Chinchilla(DeepMind)2022データとパラメータを均等に増やすべき
Chinchillaの最適比率(Hoffmann et al.):
  最適データ量 ≈ 20 × パラメータ数

例: 70Bパラメータモデルには
  20 × 70B = 1.4T(1兆4000億)トークンのデータが最適

→ GPT-3(175B)はデータが少なすぎた可能性を示唆

歴史と背景

  • 2020年:OpenAI「Scaling Laws for Neural Language Models」を発表
  • 2022年:DeepMind「Chinchilla」論文でデータ重視の最適スケーリングを提唱
  • 2023年:LLaMA・Falcon等がChinchillaスケーリングで高効率なオープンモデルを実現
  • 現在:スケーリング則は依然有効だが、「スケーリングの壁」や「データ枯渇」の議論も進行中

3要素のスケーリングバランス

【3要素の関係】

計算量(C) ≈ 6 × パラメータ数(N) × データ量(D)

最適なNとDの関係(Chinchilla):
  N_opt ∝ C^0.5
  D_opt ∝ C^0.5

つまり: 計算予算が100倍になったら
  → パラメータも10倍、データも10倍が最適
  → パラメータだけを100倍にしても非効率

関連用語

  • 事前学習 — スケーリング則が適用される主要な学習フェーズ
  • Mixture of Experts — スケーリングをより効率化するアーキテクチャ
  • トークン — スケーリング則でのデータ量の単位
  • モデル蒸留 — 大規模モデルの知識を小規模モデルに転移する技術