LLM学習・訓練

事前学習(Pre-training) じぜんがくしゅう

事前学習Pre-training自己教師あり学習基盤モデルトークン予測大規模データ
事前学習について教えて

簡単に言うとこんな感じ!

インターネット上の大量のテキストを読ませて「次の単語を当てるゲーム」を繰り返すことでAIに言語の知識を叩き込む工程だよ!この段階で何兆文字もの文章を学習して「世界の知識」を身につける。その後でファインチューニングをして使いやすくするんだ!


事前学習とは

事前学習(Pre-training) とは、LLMを大規模なテキストデータで学習させ、言語の文法・知識・推論能力の基盤を獲得させる工程です。LLMの開発工程の最初のフェーズで、最も計算コストがかかります。GPT-4の事前学習には数千億円規模の費用がかかると言われています。

学習方法は自己教師あり学習が主流で、具体的には「テキストの次のトークンを予測する(Next Token Prediction)」という単純なタスクを繰り返します。ラベル付きデータは不要で、インターネット上のテキストをそのまま学習データとして利用できるため、膨大なデータを扱えます。GPT系はDecoder-onlyで次のトークン予測、BERTはEncoder-onlyでマスクされたトークンの予測を行います。


事前学習の構成要素

要素内容規模感(GPT-3比)
学習データウェブ・書籍・コード等のテキスト300〜10,000億トークン
パラメータ数モデルの学習すべき変数7B〜数百B
GPU数並列計算のためのGPU数百〜数万台
学習期間事前学習にかかる時間数週間〜数ヶ月
費用クラウドGPU費用数億〜数千億円

歴史と背景

  • 2018年:BERTとGPT-1が事前学習 + ファインチューニングのパラダイムを確立
  • 2019年:GPT-2(1.5B)で大規模事前学習の威力が実証
  • 2020年:GPT-3(175B)の登場でファインチューニングなしの数ショット能力が判明
  • 2023年以降:LLaMA等のオープンモデル公開で事前学習済みモデルの活用が広まる
  • 現在:データ枯渇(インターネット上の良質テキストが限界に近い)が業界課題に

事前学習から使えるモデルまでの流れ

1. 事前学習(Pre-training)
   大量テキスト → 「次のトークン予測」で言語知識を習得
   コスト: 非常に高い(数十億円〜)

2. SFT(Supervised Fine-Tuning)
   指示に従うためのファインチューニング
   コスト: 中程度

3. RLHF / DPO
   人間の好みに合わせる強化学習
   コスト: 中程度

4. 製品リリース
   ChatGPT・Claude・Gemini等として公開

関連用語