GRPO じーあーるぴーおー
GRPOGroup Relative Policy Optimization強化学習DeepSeek推論モデル選好学習
GRPOについて教えて
簡単に言うとこんな感じ!
「同じ問題に対してAIが複数の答えを出して、グループ内での相対的な良し悪しを比べて学習する」強化学習の手法だよ!DeepSeekがo1に匹敵する推論性能を出した際に使っていて話題になったんだ。比較対象を自分で作れるから効率的に学習できるんだよ!
GRPOとは
GRPO(Group Relative Policy Optimization) とは、同一の問い(プロンプト)に対して複数の回答をサンプリングし、グループ内の相対スコアを報酬として強化学習を行う手法です。DeepSeek AIが2024年に発表したDeepSeek-R1の学習で採用され、OpenAI o1に匹敵する推論性能を実現したとして大きく注目されました。
通常のPPO(Proximal Policy Optimization)では価値関数(Value Function)を別途学習する必要がありますが、GRPOはグループ内の平均スコアをベースラインとして使うため、価値関数モデルが不要になります。これにより実装が単純化され、計算コストが削減されます。数学問題や論理推論など正解が明確なタスクで特に有効です。
GRPOの仕組み
ステップ1: 複数回答のサンプリング
同一の数学問題 → LLMが8〜16個の異なる回答を生成
ステップ2: 報酬スコアリング
各回答を報酬モデル(または正解チェック)でスコア化
例: 正解=+1, 不正解=0, フォーマット違反=-0.5
ステップ3: グループ相対スコアの計算
グループ平均スコアを引いた差分が強化学習のシグナル
ステップ4: 重みの更新
良い回答を生成しやすく、悪い回答を生成しにくく調整
歴史と背景
- 2024年初頭:DeepSeek「DeepSeek-R1-Zero」でGRPOを採用し数学・推論で高性能を達成
- 2025年1月:DeepSeek-R1公開でGRPOが一般に注目を集める
- 2025年以降:Qwen・InternLMなど他のオープンモデルでもGRPOの採用が広まる
- 現在:推論特化モデルの学習手法として標準的なオプションの一つに
PPO・DPO・GRPOの比較
| 手法 | 特徴 | 価値関数 | 報酬 | 適した用途 |
|---|---|---|---|---|
| PPO | 汎用強化学習 | 必要 | 報酬モデル | 全般 |
| DPO | 選好を直接最適化 | 不要 | 比較ペア | 会話品質向上 |
| GRPO | グループ内相対比較 | 不要 | スコアリング | 数学・推論 |