RLHF あーるえるえいちえふ
RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習報酬モデルChatGPT
RLHFについて教えて
簡単に言うとこんな感じ!
AIの回答を人間に「これとこれ、どっちが良い?」と評価させて、人間の好みを学習させる仕組みだよ!「正確だけど冷たい回答」より「少し詳しくて親切な回答」を好む人間の感覚をAIに教えることで、ChatGPTのように「使いやすいAI」になるんだ!
RLHFとは
RLHF(Reinforcement Learning from Human Feedback:人間フィードバックからの強化学習) とは、人間がAIの複数の回答を比較評価し、その好みのデータから報酬モデルを学習させ、報酬を最大化するようにLLMを強化学習で調整する手法です。ChatGPTを生み出したOpenAIが2017年〜2022年にかけて発展させ、実用LLMの中核技術となりました。
単純に正解データで学習するSFTでは「人間が好む自然な文章」「安全で誠実な回答」「有益な回答と有害な回答の区別」を学習しにくいですが、RLHFは人間の比較評価を通じてこれらの「好み」を定量化します。ただし、人間の評価収集コストが高く、報酬ハッキング(人間をうまくだます回答を学習してしまう)のリスクがあります。
RLHFのパイプライン
ステップ1: SFT(Supervised Fine-Tuning)
事前学習済みモデルを指示→回答データで微調整
ステップ2: 報酬モデル(RM)の学習
同じ指示に対してSFTモデルが複数の回答を生成
→ 人間のアノテーターが「A > B」と比較評価
→ 比較データで報酬モデルを学習
ステップ3: PPOによる強化学習
LLMが生成した回答を報酬モデルでスコアリング
→ 高スコアの回答を多く生成するよう重みを更新
→ KLダイバージェンスでSFTモデルから外れすぎないよう制約
歴史と背景
- 2017年:DeepMindとOpenAIがAtariゲームでRLHFの有効性を実証
- 2020年:OpenAI「Learning to summarize from human feedback」でLLMへのRLHF適用
- 2022年1月:InstructGPT論文でRLHFの全パイプラインを公開
- 2022年11月:ChatGPTでRLHFが広く知られる
- 2023年以降:コストの問題からDPO・GRPO等の代替手法が台頭
主要なRLHF関連技術の比較
| 手法 | 特徴 | 難しさ | 採用例 |
|---|---|---|---|
| RLHF + PPO | 本来のRLHF | 複雑 | ChatGPT、InstructGPT |
| DPO | 報酬モデル不要 | やや簡単 | Llama 2 Chat |
| GRPO | グループ比較 | 中程度 | DeepSeek R1 |
| RLAIF | AIがフィードバック | 中程度 | Claudeの一部 |