報酬モデル ほうしゅうもでる
報酬モデルReward ModelRLHF人間フィードバックスコアリングアライメント
報酬モデルについて教えて
報酬モデルとは
報酬モデル(Reward Model) とは、LLMが生成した回答に対して「どれだけ人間の好みに合っているか」をスコアで評価するために学習された別のモデルです。RLHFのパイプラインで中核的な役割を担います。
学習方法は、まず人間のアノテーターに同一プロンプトに対する複数の回答を評価させ「回答A > 回答B」という選好ペアを大量に収集します。この比較データを使って、モデルが良い回答に高いスコアを、悪い回答に低いスコアを出力するよう学習します。学習済みの報酬モデルはPPOによるLLMのファインチューニングで、各生成回答のスコアを提供します。
報酬モデルの学習と活用
【学習フェーズ】
人間が2つの回答を比較評価:
プロンプト: 「東京のおすすめ飲食店を教えて」
回答A: 「浅草の老舗天ぷら店「○○」や...(具体的な情報)」
回答B: 「東京にはたくさんのお店があります。」
→ 人間の評価: A > B
この比較データを大量に集めて報酬モデルを学習
【推論フェーズ(RLHF)】
LLMが生成した回答 → 報酬モデルが0〜10のスコアを付与
→ 高スコアの回答を生成するようLLMを更新
歴史と背景
- 2020年:OpenAI「Learning to summarize」で大規模な報酬モデル学習を実証
- 2022年:InstructGPT・ChatGPTで報酬モデルの有効性が広く認知
- 2023年:RLAIF(AIがフィードバックを提供)が登場し、人間アノテーションコストを削減
- 2024年以降:DPO・GRPOの台頭で陽に報酬モデルを使わない手法も増加
良い報酬モデルの要件
| 項目 | 内容 |
|---|---|
| 有用性 | 役立つ回答に高スコア |
| 無害性 | 有害・差別的回答に低スコア |
| 誠実性 | 正確・根拠ある回答を評価 |
| 汎用性 | 多様なトピックで機能 |
| 報酬ハッキング耐性 | AIに騙されにくい設計 |