事前学習(Pre-training) じぜんがくしゅう
事前学習Pre-training自己教師あり学習基盤モデルトークン予測大規模データ
事前学習について教えて
簡単に言うとこんな感じ!
インターネット上の大量のテキストを読ませて「次の単語を当てるゲーム」を繰り返すことでAIに言語の知識を叩き込む工程だよ!この段階で何兆文字もの文章を学習して「世界の知識」を身につける。その後でファインチューニングをして使いやすくするんだ!
事前学習とは
事前学習(Pre-training) とは、LLMを大規模なテキストデータで学習させ、言語の文法・知識・推論能力の基盤を獲得させる工程です。LLMの開発工程の最初のフェーズで、最も計算コストがかかります。GPT-4の事前学習には数千億円規模の費用がかかると言われています。
学習方法は自己教師あり学習が主流で、具体的には「テキストの次のトークンを予測する(Next Token Prediction)」という単純なタスクを繰り返します。ラベル付きデータは不要で、インターネット上のテキストをそのまま学習データとして利用できるため、膨大なデータを扱えます。GPT系はDecoder-onlyで次のトークン予測、BERTはEncoder-onlyでマスクされたトークンの予測を行います。
事前学習の構成要素
| 要素 | 内容 | 規模感(GPT-3比) |
|---|---|---|
| 学習データ | ウェブ・書籍・コード等のテキスト | 300〜10,000億トークン |
| パラメータ数 | モデルの学習すべき変数 | 7B〜数百B |
| GPU数 | 並列計算のためのGPU | 数百〜数万台 |
| 学習期間 | 事前学習にかかる時間 | 数週間〜数ヶ月 |
| 費用 | クラウドGPU費用 | 数億〜数千億円 |
歴史と背景
- 2018年:BERTとGPT-1が事前学習 + ファインチューニングのパラダイムを確立
- 2019年:GPT-2(1.5B)で大規模事前学習の威力が実証
- 2020年:GPT-3(175B)の登場でファインチューニングなしの数ショット能力が判明
- 2023年以降:LLaMA等のオープンモデル公開で事前学習済みモデルの活用が広まる
- 現在:データ枯渇(インターネット上の良質テキストが限界に近い)が業界課題に
事前学習から使えるモデルまでの流れ
1. 事前学習(Pre-training)
大量テキスト → 「次のトークン予測」で言語知識を習得
コスト: 非常に高い(数十億円〜)
2. SFT(Supervised Fine-Tuning)
指示に従うためのファインチューニング
コスト: 中程度
3. RLHF / DPO
人間の好みに合わせる強化学習
コスト: 中程度
4. 製品リリース
ChatGPT・Claude・Gemini等として公開