Reinforcement learning from human feedback (RLHF) — 人間フィードバックからの強化学習

From Systems analysis wiki
Jump to navigation Jump to search

人間のフィードバックからの強化学習 (Reinforcement Learning from Human Feedback, RLHF) とは、まず人間のフィードバックに基づいて特別な「報酬モデル」(reward model) を学習させ、次にそのモデルを強化学習 (RL) プロセスで利用して知的エージェントの行動を最適化する機械学習の手法である[1]

RLHFは、「有用」「安全」「面白い」といった応答など、複雑または定義困難な目標を人間の評価を通じて形式化することを可能にする。複雑な報酬関数を手動で定義する代わりに、RLHFは人間の選好から直接報酬モデルを学習することができる。このアプローチは、大規模言語モデル (LLM)の「アライメント」(alignment)、すなわちその振る舞いを人間の価値観や意図に一致させるための鍵となった[2]

手法の発展と初期の成果

人間のフィードバックを用いてエージェントを学習させるというアイデアは、2010年代に生まれた。最初の重要な成果の一つは、2017年のポール・クリスティアーノおよびOpenAIとDeepMindの同僚による研究である。彼らは、人間の選好が複雑なRLタスクにおいて手動で設定された報酬関数を代替できることを示した。彼らの実験では、人間がエージェントの行動の断片(例えばAtariゲーム)を閲覧し、より好ましい選択肢を選んだ。これらのペアワイズ比較に基づいて報酬モデルが学習され、エージェントの行動の1%未満についてフィードバックを得るだけで、多くの困難なタスクを成功裏に解決することができた[3]

その後、この手法は言語モデルの学習に応用されるようになった。2020年、OpenAIの研究者たちは初めてRLHFをテキスト要約タスクに適用した。彼らは、人間がどの要約を好むかを予測する報酬モデルを学習させ、RLを用いてその評価を最適化するようにモデルをファインチューニングした。その結果、要約の品質が大幅に向上し、人間が作成した参照例で学習したモデルさえも上回った[4]

大規模言語モデルにおけるRLHF

大規模言語モデルは、RLHFの導入により、応答の有用性、正確性、指示への準拠性の観点から大きな恩恵を受けた。

InstructGPT and ChatGPT - InstructGPTとChatGPT

重要な一歩となったのが、OpenAIによるInstructGPT(2022年)モデルの発表である。これは人間が関与してファインチューニングされたGPT-3のバージョンである[5]。その方法論は3つの段階で構成される:

  1. 教師ありファインチューニング (Supervised Fine-Tuning, SFT): 人間の評価者が様々なプロンプトに対して望ましい応答の例を手作業で記述した、少量の高品質なデモンストレーションデータセットでモデルをファインチューニングする。
  2. 報酬モデル (Reward Model) の学習: 多数のプロンプトに対してモデルが複数の応答を生成する。人間の評価者はこれらの応答を最も良いものから最も悪いものまでランク付けする。この選好データに基づいて報酬モデルが学習され、人間が好む応答により高いスコアを割り当てるようになる。
  3. RLによる最適化: 元の言語モデルを、近接方策最適化 (PPO) アルゴリズムを用いてファインチューニングし、報酬モデルが出力するスコアを最大化する。最適化の過程で、言語能力の低下を防ぐため、元のSFTモデルから大きく逸脱することに対するペナルティも導入される。

実験の結果、比較的小さなInstructGPTモデル(13億パラメータ)でさえ、巨大なGPT-3モデル(1750億パラメータ)を有用性で上回ることが示された。また、InstructGPTモデルは、有害、偏見のある、または不正確なコンテンツを生成する頻度が大幅に減少した[5]

この系統の発展は対話モデルの創出につながり、その中で最も有名なものがChatGPT(OpenAI、2022年末)である。ChatGPTはGPT-3.5シリーズのモデルであり、同様の方法論を用いてRLHFを利用し、対話を行うために特別にファインチューニングされている[6]

業界での採用

RLHFの手法は、他の主要な組織にも採用された。DeepMindは対話エージェントSparrow(2022年)を開発した。これはRLHFに加えて、自然言語で記述された一連のルール(例:「危険な助言をしない」)を用いて学習された[7]。Anthropic社も同様の原則を用いて自社モデルを学習させた。2023年までには、RLHFは最先端の言語モデルを作成する際のほぼ標準的な構成要素となった[1]

RLHF適用の利点

  • ユーザーの意図との一致: RLHFでチューニングされたモデルは、指示への追従性が大幅に向上し、より関連性が高く有用な応答を生成する[5]
  • 有害性および有害コンテンツの削減: 学習ループに人間を組み込むことで、望ましくない形式の応答を明確にペナルティ化できる。その結果、RLHFモデルは、はるかに毒性が低く、偏見の少ないコンテンツを生成する[5]
  • 忠実性の向上と「ハルシネーション」の削減: 評価者は捏造された事実を含む応答の評価を下げることで、モデルがより正確になるよう促すことができる。InstructGPTやChatGPTモデルは、その前身と比較して事実を「捏造」することが少なくなった[5]
  • 学習の効率性: RLHFは、学習サンプルを比例的に増加させることなくモデルを改善できる。膨大な量のデータではなく、質の高い選好評価が求められる。

制限と課題

成功にもかかわらず、RLHFの手法にはいくつかの制限と未解決の課題がある。

  • 人間によるデータ収集の品質とコスト: RLHFの有効性は、フィードバックの品質に直接依存する。このようなデータセットの収集は、労力がかかり高価なプロセスである。さらに、評価者のサンプルや評価基準が客観的でない場合、モデルはその偏りを継承してしまう可能性がある[2]
  • 報酬ハッキング (Reward Hacking) のリスク: 特定の報酬関数に対して最適化されるモデルは、真の目標ではなく、その関数自体に適応し始めることがある。例えば、評価者が長さを評価する場合、可能な限り長い応答を生成することを学習したり、不正確さでペナルティを受ける場合は断定的な表現を避けたりするようになる可能性がある。
  • 真実性の保証の欠如: RLHFはモデルに新たな事実知識を導入するのではなく、人間に好まれる応答の形式を教えるだけである。そのため、ハルシネーションの問題は完全には解決されない。モデルは不確実性を隠すのがうまくなるかもしれないが、常に事実を確認できるわけではない[6]
  • 選好のスケーリング: 報酬モデルを他のタスクに転用することにも疑問がある。ある一連のプロンプトに対する選好で学習したモデルは、スタイルやテーマが新しいタスクに直面した際に、予測不能な振る舞いをすることがある。

結論

RLHFは、大規模言語モデルを「良い応答」に関する人間の概念と「アライメント」させるための重要な手法として確立された。これにより、AIアシスタントとの対話の質が著しく向上し、その応答はより有用で安全なものになった。RLHFは、単にもっともらしいテキストを生成するだけでなく、対話の過程で人間の価値観、選好、意図を考慮できるモデルを構築する上で、鍵となるツールと見なされている[8]

リンク

参考文献

  • Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. arXiv:1706.03741.
  • Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325.
  • Nakano, R. et al. (2021). WebGPT: Browser-Assisted Question-Answering with Human Feedback. arXiv:2112.09332.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Glaese, A. et al. (2022). Improving Alignment of Dialogue Agents via Targeted Human Judgements. arXiv:2209.14375.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Liu, T. et al. (2023). A Survey of Reinforcement Learning from Human Feedback. arXiv:2312.14925.
  • Zhang, Y. et al. (2024). A Survey on Human Preference Learning for Large Language Models. arXiv:2406.11191.
  • Li, P. et al. (2024). Advancing Translation Preference Modeling with RLHF. arXiv:2402.11525.
  • McAleese, N. et al. (2024). LLM Critics Help Catch LLM Bugs. arXiv:2407.00215.

注釈

  1. 1.0 1.1 «What Is Reinforcement Learning From Human Feedback (RLHF)?». IBM. [1]
  2. 2.0 2.1 «Reinforcement learning from human feedback». In Wikipedia. [2]
  3. Christiano, P. et al. «Deep reinforcement learning from human preferences». arXiv:1706.03741, 2017. [3]
  4. Stiennon, N. et al. «Learning to summarize from human feedback». arXiv:2009.01325, 2020. [4]
  5. 5.0 5.1 5.2 5.3 5.4 Ouyang, L. et al. «Training language models to follow instructions with human feedback». arXiv:2203.02155, 2022. [5]
  6. 6.0 6.1 «Introducing ChatGPT». OpenAI, 2022. [6]
  7. Glaese, A. et al. «Improving alignment of dialogue agents via targeted human judgements». arXiv:2209.14375, 2022. [7]
  8. «Aligning language models to follow instructions». OpenAI. [8]