LLM学習・訓練

事前学習（Pre-training）じぜんがくしゅう

事前学習Pre-training自己教師あり学習基盤モデルトークン予測大規模データ

事前学習について教えて

簡単に言うとこんな感じ！

インターネット上の大量のテキストを読ませて「次の単語を当てるゲーム」を繰り返すことでAIに言語の知識を叩き込む工程だよ！この段階で何兆文字もの文章を学習して「世界の知識」を身につける。その後でファインチューニングをして使いやすくするんだ！

事前学習とは

事前学習（Pre-training） とは、LLMを大規模なテキストデータで学習させ、言語の文法・知識・推論能力の基盤を獲得させる工程です。LLMの開発工程の最初のフェーズで、最も計算コストがかかります。GPT-4の事前学習には数千億円規模の費用がかかると言われています。

学習方法は自己教師あり学習が主流で、具体的には「テキストの次のトークンを予測する（Next Token Prediction）」という単純なタスクを繰り返します。ラベル付きデータは不要で、インターネット上のテキストをそのまま学習データとして利用できるため、膨大なデータを扱えます。GPT系はDecoder-onlyで次のトークン予測、BERTはEncoder-onlyでマスクされたトークンの予測を行います。

事前学習の構成要素

要素	内容	規模感（GPT-3比）
学習データ	ウェブ・書籍・コード等のテキスト	300〜10,000億トークン
パラメータ数	モデルの学習すべき変数	7B〜数百B
GPU数	並列計算のためのGPU	数百〜数万台
学習期間	事前学習にかかる時間	数週間〜数ヶ月
費用	クラウドGPU費用	数億〜数千億円

歴史と背景

2018年：BERTとGPT-1が事前学習 + ファインチューニングのパラダイムを確立
2019年：GPT-2（1.5B）で大規模事前学習の威力が実証
2020年：GPT-3（175B）の登場でファインチューニングなしの数ショット能力が判明
2023年以降：LLaMA等のオープンモデル公開で事前学習済みモデルの活用が広まる
現在：データ枯渇（インターネット上の良質テキストが限界に近い）が業界課題に

事前学習から使えるモデルまでの流れ

1. 事前学習（Pre-training）
   大量テキスト → 「次のトークン予測」で言語知識を習得
   コスト: 非常に高い（数十億円〜）

2. SFT（Supervised Fine-Tuning）
   指示に従うためのファインチューニング
   コスト: 中程度

3. RLHF / DPO
   人間の好みに合わせる強化学習
   コスト: 中程度

4. 製品リリース
   ChatGPT・Claude・Gemini等として公開

事前学習とは

事前学習の構成要素

歴史と背景

事前学習から使えるモデルまでの流れ

関連用語