LLM学習・訓練

RLHF あーるえるえいちえふ

RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習報酬モデルChatGPT
RLHFについて教えて

簡単に言うとこんな感じ!

AIの回答を人間に「これとこれ、どっちが良い?」と評価させて、人間の好みを学習させる仕組みだよ!「正確だけど冷たい回答」より「少し詳しくて親切な回答」を好む人間の感覚をAIに教えることで、ChatGPTのように「使いやすいAI」になるんだ!


RLHFとは

RLHF(Reinforcement Learning from Human Feedback:人間フィードバックからの強化学習 とは、人間がAIの複数の回答を比較評価し、その好みのデータから報酬モデルを学習させ、報酬を最大化するようにLLMを強化学習で調整する手法です。ChatGPTを生み出したOpenAIが2017年〜2022年にかけて発展させ、実用LLMの中核技術となりました。

単純に正解データで学習するSFTでは「人間が好む自然な文章」「安全で誠実な回答」「有益な回答と有害な回答の区別」を学習しにくいですが、RLHFは人間の比較評価を通じてこれらの「好み」を定量化します。ただし、人間の評価収集コストが高く、報酬ハッキング(人間をうまくだます回答を学習してしまう)のリスクがあります。


RLHFのパイプライン

ステップ1: SFT(Supervised Fine-Tuning)
  事前学習済みモデルを指示→回答データで微調整

ステップ2: 報酬モデル(RM)の学習
  同じ指示に対してSFTモデルが複数の回答を生成
  → 人間のアノテーターが「A > B」と比較評価
  → 比較データで報酬モデルを学習

ステップ3: PPOによる強化学習
  LLMが生成した回答を報酬モデルでスコアリング
  → 高スコアの回答を多く生成するよう重みを更新
  → KLダイバージェンスでSFTモデルから外れすぎないよう制約

歴史と背景

  • 2017年:DeepMindとOpenAIがAtariゲームでRLHFの有効性を実証
  • 2020年:OpenAI「Learning to summarize from human feedback」でLLMへのRLHF適用
  • 2022年1月:InstructGPT論文でRLHFの全パイプラインを公開
  • 2022年11月:ChatGPTでRLHFが広く知られる
  • 2023年以降:コストの問題からDPOGRPO等の代替手法が台頭

主要なRLHF関連技術の比較

手法特徴難しさ採用例
RLHF + PPO本来のRLHF複雑ChatGPT、InstructGPT
DPO報酬モデル不要やや簡単Llama 2 Chat
GRPOグループ比較中程度DeepSeek R1
RLAIFAIがフィードバック中程度Claudeの一部

関連用語