LLM学習・訓練

GRPO じーあーるぴーおー

GRPOGroup Relative Policy Optimization強化学習DeepSeek推論モデル選好学習
GRPOについて教えて

簡単に言うとこんな感じ!

「同じ問題に対してAIが複数の答えを出して、グループ内での相対的な良し悪しを比べて学習する」強化学習の手法だよ!DeepSeekがo1に匹敵する推論性能を出した際に使っていて話題になったんだ。比較対象を自分で作れるから効率的に学習できるんだよ!


GRPOとは

GRPO(Group Relative Policy Optimization) とは、同一の問い(プロンプト)に対して複数の回答をサンプリングし、グループ内の相対スコアを報酬として強化学習を行う手法です。DeepSeek AIが2024年に発表したDeepSeek-R1の学習で採用され、OpenAI o1に匹敵する推論性能を実現したとして大きく注目されました。

通常のPPO(Proximal Policy Optimization)では価値関数(Value Function)を別途学習する必要がありますが、GRPOはグループ内の平均スコアをベースラインとして使うため、価値関数モデルが不要になります。これにより実装が単純化され、計算コストが削減されます。数学問題や論理推論など正解が明確なタスクで特に有効です。


GRPOの仕組み

ステップ1: 複数回答のサンプリング
  同一の数学問題 → LLMが8〜16個の異なる回答を生成

ステップ2: 報酬スコアリング
  各回答を報酬モデル(または正解チェック)でスコア化
  例: 正解=+1, 不正解=0, フォーマット違反=-0.5

ステップ3: グループ相対スコアの計算
  グループ平均スコアを引いた差分が強化学習のシグナル

ステップ4: 重みの更新
  良い回答を生成しやすく、悪い回答を生成しにくく調整

歴史と背景

  • 2024年初頭:DeepSeek「DeepSeek-R1-Zero」でGRPOを採用し数学・推論で高性能を達成
  • 2025年1月:DeepSeek-R1公開でGRPOが一般に注目を集める
  • 2025年以降:Qwen・InternLMなど他のオープンモデルでもGRPOの採用が広まる
  • 現在:推論特化モデルの学習手法として標準的なオプションの一つに

PPO・DPO・GRPOの比較

手法特徴価値関数報酬適した用途
PPO汎用強化学習必要報酬モデル全般
DPO選好を直接最適化不要比較ペア会話品質向上
GRPOグループ内相対比較不要スコアリング数学・推論

関連用語