LLM学習・訓練

RLHF あーるえるえいちえふ

RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習報酬モデルChatGPT

RLHFについて教えて

簡単に言うとこんな感じ！

AIの回答を人間に「これとこれ、どっちが良い？」と評価させて、人間の好みを学習させる仕組みだよ！「正確だけど冷たい回答」より「少し詳しくて親切な回答」を好む人間の感覚をAIに教えることで、ChatGPTのように「使いやすいAI」になるんだ！

RLHFとは

RLHF（Reinforcement Learning from Human Feedback：人間フィードバックからの強化学習） とは、人間がAIの複数の回答を比較評価し、その好みのデータから報酬モデルを学習させ、報酬を最大化するようにLLMを強化学習で調整する手法です。ChatGPTを生み出したOpenAIが2017年〜2022年にかけて発展させ、実用LLMの中核技術となりました。

単純に正解データで学習するSFTでは「人間が好む自然な文章」「安全で誠実な回答」「有益な回答と有害な回答の区別」を学習しにくいですが、RLHFは人間の比較評価を通じてこれらの「好み」を定量化します。ただし、人間の評価収集コストが高く、報酬ハッキング（人間をうまくだます回答を学習してしまう）のリスクがあります。

RLHFのパイプライン

ステップ1: SFT（Supervised Fine-Tuning）
  事前学習済みモデルを指示→回答データで微調整

ステップ2: 報酬モデル（RM）の学習
  同じ指示に対してSFTモデルが複数の回答を生成
  → 人間のアノテーターが「A > B」と比較評価
  → 比較データで報酬モデルを学習

ステップ3: PPOによる強化学習
  LLMが生成した回答を報酬モデルでスコアリング
  → 高スコアの回答を多く生成するよう重みを更新
  → KLダイバージェンスでSFTモデルから外れすぎないよう制約

歴史と背景

2017年：DeepMindとOpenAIがAtariゲームでRLHFの有効性を実証
2020年：OpenAI「Learning to summarize from human feedback」でLLMへのRLHF適用
2022年1月：InstructGPT論文でRLHFの全パイプラインを公開
2022年11月：ChatGPTでRLHFが広く知られる
2023年以降：コストの問題からDPO・GRPO等の代替手法が台頭

主要なRLHF関連技術の比較

手法	特徴	難しさ	採用例
RLHF + PPO	本来のRLHF	複雑	ChatGPT、InstructGPT
DPO	報酬モデル不要	やや簡単	Llama 2 Chat
GRPO	グループ比較	中程度	DeepSeek R1
RLAIF	AIがフィードバック	中程度	Claudeの一部

RLHFとは

RLHFのパイプライン

歴史と背景

主要なRLHF関連技術の比較

関連用語