LLM学習・訓練

報酬モデル ほうしゅうもでる

報酬モデルReward ModelRLHF人間フィードバックスコアリングアライメント
報酬モデルについて教えて

簡単に言うとこんな感じ!

「人間がこの回答を気に入るかどうか」を数値で予測するAIだよ!本物の人間に毎回評価してもらうと大変だから、人間の好みを学習した「代理評価AI」を作っておいて、それを使って本命のLLMを訓練するんだ!RLHF学習の要となる存在だよ!


報酬モデルとは

報酬モデル(Reward Model) とは、LLMが生成した回答に対して「どれだけ人間の好みに合っているか」をスコアで評価するために学習された別のモデルです。RLHFのパイプラインで中核的な役割を担います。

学習方法は、まず人間のアノテーターに同一プロンプトに対する複数の回答を評価させ「回答A > 回答B」という選好ペアを大量に収集します。この比較データを使って、モデルが良い回答に高いスコアを、悪い回答に低いスコアを出力するよう学習します。学習済みの報酬モデルはPPOによるLLMのファインチューニングで、各生成回答のスコアを提供します。


報酬モデルの学習と活用

【学習フェーズ】
人間が2つの回答を比較評価:
  プロンプト: 「東京のおすすめ飲食店を教えて」
  回答A: 「浅草の老舗天ぷら店「○○」や...(具体的な情報)」
  回答B: 「東京にはたくさんのお店があります。」
  → 人間の評価: A > B

この比較データを大量に集めて報酬モデルを学習

【推論フェーズ(RLHF)】
LLMが生成した回答 → 報酬モデルが0〜10のスコアを付与
→ 高スコアの回答を生成するようLLMを更新

歴史と背景

  • 2020年:OpenAI「Learning to summarize」で大規模な報酬モデル学習を実証
  • 2022年:InstructGPT・ChatGPTで報酬モデルの有効性が広く認知
  • 2023年:RLAIF(AIがフィードバックを提供)が登場し、人間アノテーションコストを削減
  • 2024年以降DPOGRPOの台頭で陽に報酬モデルを使わない手法も増加

良い報酬モデルの要件

項目内容
有用性役立つ回答に高スコア
無害性有害・差別的回答に低スコア
誠実性正確・根拠ある回答を評価
汎用性多様なトピックで機能
報酬ハッキング耐性AIに騙されにくい設計

関連用語

  • RLHF — 報酬モデルを活用する学習パイプライン
  • PPO(LLMにおける強化学習) — 報酬モデルのスコアを使って学習するアルゴリズム
  • DPO — 報酬モデルを陽に使わない代替手法
  • GRPO — グループ比較で報酬モデルを代替または補完する手法
  • SFT — 報酬モデルの元になるSFTモデルを生成する工程