LLM学習・訓練

報酬モデルほうしゅうもでる

報酬モデルReward ModelRLHF人間フィードバックスコアリングアライメント

報酬モデルについて教えて

簡単に言うとこんな感じ！

「人間がこの回答を気に入るかどうか」を数値で予測するAIだよ！本物の人間に毎回評価してもらうと大変だから、人間の好みを学習した「代理評価AI」を作っておいて、それを使って本命のLLMを訓練するんだ！RLHF学習の要となる存在だよ！

報酬モデルとは

報酬モデル（Reward Model） とは、LLMが生成した回答に対して「どれだけ人間の好みに合っているか」をスコアで評価するために学習された別のモデルです。RLHFのパイプラインで中核的な役割を担います。

学習方法は、まず人間のアノテーターに同一プロンプトに対する複数の回答を評価させ「回答A > 回答B」という選好ペアを大量に収集します。この比較データを使って、モデルが良い回答に高いスコアを、悪い回答に低いスコアを出力するよう学習します。学習済みの報酬モデルはPPOによるLLMのファインチューニングで、各生成回答のスコアを提供します。

報酬モデルの学習と活用

【学習フェーズ】
人間が2つの回答を比較評価:
  プロンプト: 「東京のおすすめ飲食店を教えて」
  回答A: 「浅草の老舗天ぷら店「○○」や...（具体的な情報）」
  回答B: 「東京にはたくさんのお店があります。」
  → 人間の評価: A > B

この比較データを大量に集めて報酬モデルを学習

【推論フェーズ（RLHF）】
LLMが生成した回答 → 報酬モデルが0〜10のスコアを付与
→ 高スコアの回答を生成するようLLMを更新

歴史と背景

2020年：OpenAI「Learning to summarize」で大規模な報酬モデル学習を実証
2022年：InstructGPT・ChatGPTで報酬モデルの有効性が広く認知
2023年：RLAIF（AIがフィードバックを提供）が登場し、人間アノテーションコストを削減
2024年以降：DPO・GRPOの台頭で陽に報酬モデルを使わない手法も増加

良い報酬モデルの要件

項目	内容
有用性	役立つ回答に高スコア
無害性	有害・差別的回答に低スコア
誠実性	正確・根拠ある回答を評価
汎用性	多様なトピックで機能
報酬ハッキング耐性	AIに騙されにくい設計

報酬モデルとは

報酬モデルの学習と活用

歴史と背景

良い報酬モデルの要件

関連用語