LLM基礎

スケーリング則すけーりんぐそく

スケーリング則Scaling LawsChinchillaパラメータ数計算量モデルサイズ

スケーリング則について教えて

簡単に言うとこんな感じ！

「モデルを大きくして、データを増やして、計算をたくさんすれば、予測通りに性能が上がる」という法則だよ！「AIを賢くするには何をどれだけ増やせばいい？」という問いに対して、数学的な答えを出してくれる重要な理論なんだ！

スケーリング則とは

スケーリング則（Scaling Laws） とは、LLMの性能（損失値）がモデルのパラメータ数・学習データ量・計算量（FLOP）の3要素と、べき乗則（Power Law）の関係で予測可能であることを示した経験的な法則です。2020年にOpenAIが発表した論文で体系化されました。

「モデルを10倍大きくすれば性能は○%向上する」「データを10倍にすれば○%向上する」という形で定量的な予測が立てられます。これにより研究者はAI開発の方向性（パラメータを増やすべきか、データを増やすべきか）を事前に計画できるようになりました。重要なのは、精度向上のためにはパラメータ・データ・計算の3つをバランスよく増やす必要があるという点です。

OpenAI vs Chinchillaのスケーリング則

論文	発表	結論
OpenAI Scaling Laws	2020	パラメータ数優先でスケールアップ
Chinchilla（DeepMind）	2022	データとパラメータを均等に増やすべき

Chinchillaの最適比率（Hoffmann et al.）:
  最適データ量 ≈ 20 × パラメータ数

例: 70Bパラメータモデルには
  20 × 70B = 1.4T（1兆4000億）トークンのデータが最適

→ GPT-3（175B）はデータが少なすぎた可能性を示唆

歴史と背景

2020年：OpenAI「Scaling Laws for Neural Language Models」を発表
2022年：DeepMind「Chinchilla」論文でデータ重視の最適スケーリングを提唱
2023年：LLaMA・Falcon等がChinchillaスケーリングで高効率なオープンモデルを実現
現在：スケーリング則は依然有効だが、「スケーリングの壁」や「データ枯渇」の議論も進行中

3要素のスケーリングバランス

【3要素の関係】

計算量(C) ≈ 6 × パラメータ数(N) × データ量(D)

最適なNとDの関係（Chinchilla）:
  N_opt ∝ C^0.5
  D_opt ∝ C^0.5

つまり: 計算予算が100倍になったら
  → パラメータも10倍、データも10倍が最適
  → パラメータだけを100倍にしても非効率

スケーリング則とは

OpenAI vs Chinchillaのスケーリング則

歴史と背景

3要素のスケーリングバランス

関連用語