LLM学習・訓練

PPO(LLMにおける強化学習) ぴーぴーおー(えるえるえむにおけるきょうかがくしゅう)

PPOProximal Policy Optimization強化学習RLHF方策最適化LLM
PPOについて教えて

簡単に言うとこんな感じ!

ゲームAIで有名な強化学習アルゴリズムLLMの調整に使う手法だよ!「人間が好む回答をした→ポイント獲得」を繰り返してAIを改善していく仕組みで、RLHFの最終ステップで使われるんだ。ただし実装が複雑なので最近はDPOGRPOに置き換えられることも多いよ!


PPO(Proximal Policy Optimization)とは

PPO(Proximal Policy Optimization) とは、OpenAIが2017年に提案した強化学習アルゴリズムで、LLMの文脈ではRLHFの最終ステップとして人間の好みを示す報酬モデルのスコアを最大化するようにLLMの重みを更新するために使われます。

PPOの「Proximal(近接的)」とは、更新のたびにモデルが大きく変わりすぎないようにする制約(クリッピング)を意味します。強化学習では方策(Policy:行動の選び方)を大きく変えると不安定になりがちですが、PPOは変化量を制限することで学習を安定させます。LLMでは、変化しすぎるとSFTで学習した知識が失われる(壊滅的忘却)ため、この安定性が重要です。


LLMにおけるPPOの登場人物

4つのモデルが並行して動作(RLHF + PPO):

1. Actor(方策モデル)
   → 学習対象のLLM。プロンプトに対して回答を生成

2. Critic(価値モデル)
   → 各状態の「将来的な報酬の期待値」を推定
   → Actorと同じサイズのモデルが必要(計算コスト大)

3. Reward Model(報酬モデル)
   → 生成した回答を評価してスコアを返す

4. Reference Model(参照モデル)
   → SFT済みのオリジナルモデル(変更しない)
   → KLダイバージェンスで過度な変化を防ぐ基準

歴史と背景

  • 2017年:OpenAIがPPOを発表(元はロボティクス・ゲームAI向け)
  • 2020年:OpenAIがLLMのSummarizationタスクへのRLHF + PPO適用を実証
  • 2022年:InstructGPTでRLHF + PPOが実用化、ChatGPTへと発展
  • 2023年以降:DPO・GRPOなどの代替手法が登場し、PPOの利用コストの問題が顕在化
  • 現在:OpenAIは依然PPO系を使用、多くのオープン研究はDPO・GRPOへ移行

PPOの課題とDPOへの移行

課題詳細
4モデル同時稼働Actor・Critic・Reward・Referenceの4モデルが必要
計算コスト4モデル分のGPUメモリと計算が必要
実装の複雑さ多くのハイパーパラメータ調整が必要
報酬ハッキング報酬モデルを騙す回答を生成してしまう

→ これらの課題を解決するためDPO・GRPOが提案された


関連用語

  • RLHF — PPOを最終ステップに使う学習パイプライン
  • DPO — PPOの代替として提案されたシンプルな手法
  • GRPO — PPOを改良してグループ比較を使う手法
  • 報酬モデル — PPOで使う報酬スコアを提供するモデル
  • SFT — PPO(RLHF)の前段階となる教師あり微調整