LLM学習・訓練

GRPO じーあーるぴーおー

GRPOGroup Relative Policy Optimization強化学習DeepSeek推論モデル選好学習

GRPOについて教えて

簡単に言うとこんな感じ！

「同じ問題に対してAIが複数の答えを出して、グループ内での相対的な良し悪しを比べて学習する」強化学習の手法だよ！DeepSeekがo1に匹敵する推論性能を出した際に使っていて話題になったんだ。比較対象を自分で作れるから効率的に学習できるんだよ！

GRPOとは

GRPO（Group Relative Policy Optimization） とは、同一の問い（プロンプト）に対して複数の回答をサンプリングし、グループ内の相対スコアを報酬として強化学習を行う手法です。DeepSeek AIが2024年に発表したDeepSeek-R1の学習で採用され、OpenAI o1に匹敵する推論性能を実現したとして大きく注目されました。

通常のPPO（Proximal Policy Optimization）では価値関数（Value Function）を別途学習する必要がありますが、GRPOはグループ内の平均スコアをベースラインとして使うため、価値関数モデルが不要になります。これにより実装が単純化され、計算コストが削減されます。数学問題や論理推論など正解が明確なタスクで特に有効です。

GRPOの仕組み

ステップ1: 複数回答のサンプリング
  同一の数学問題 → LLMが8〜16個の異なる回答を生成

ステップ2: 報酬スコアリング
  各回答を報酬モデル（または正解チェック）でスコア化
  例: 正解=+1, 不正解=0, フォーマット違反=-0.5

ステップ3: グループ相対スコアの計算
  グループ平均スコアを引いた差分が強化学習のシグナル

ステップ4: 重みの更新
  良い回答を生成しやすく、悪い回答を生成しにくく調整

歴史と背景

2024年初頭：DeepSeek「DeepSeek-R1-Zero」でGRPOを採用し数学・推論で高性能を達成
2025年1月：DeepSeek-R1公開でGRPOが一般に注目を集める
2025年以降：Qwen・InternLMなど他のオープンモデルでもGRPOの採用が広まる
現在：推論特化モデルの学習手法として標準的なオプションの一つに

PPO・DPO・GRPOの比較

手法	特徴	価値関数	報酬	適した用途
PPO	汎用強化学習	必要	報酬モデル	全般
DPO	選好を直接最適化	不要	比較ペア	会話品質向上
GRPO	グループ内相対比較	不要	スコアリング	数学・推論

GRPOとは

GRPOの仕組み

歴史と背景

PPO・DPO・GRPOの比較

関連用語