Reinforcement learning from human feedback (RLHF) — 基于人类反馈的强化学习

From Systems analysis wiki
Jump to navigation Jump to search

基于人类反馈的强化学习Reinforcement Learning from Human Feedback,简称RLHF)是一种机器学习方法,它首先利用人类反馈来训练一个专门的“奖励模型”(reward model),然后该模型在强化学习(RL)过程中被用来优化智能代理的行为[1]

RLHF 能够通过人类的评估来形式化那些复杂或难以定义的目标(例如,一个“有用的”、“安全的”或“有趣的”回答)。RLHF 无需手动定义复杂的奖励函数,而是直接根据人类偏好来训练奖励模型。这种方法已成为“对齐”(alignment)大型语言模型(LLM)的关键,即将其行为与人类的价值观和意图保持一致[2]

方法的发展与早期成就

使用人类反馈来训练代理的思想起源于2010年代。最早的重大成果之一是2017年 Paul Christiano 及其 OpenAI 和 DeepMind 的同事们所做的工作。他们证明,在复杂的强化学习任务中,人类偏好可以替代手动设定的奖励函数。在他们的实验中,人类观察代理行为的片段(例如,在 Atari 游戏中),并选择更偏好的一个。基于这些成对比较,研究人员训练出了一个奖励模型,这使得仅凭不到1%的代理行为反馈,就能成功解决一系列复杂问题[3]

在随后的几年里,该方法开始被应用于训练语言模型。2020年,OpenAI 的研究人员首次将 RLHF 应用于文本摘要任务。他们训练了一个奖励模型来预测人类会偏好哪一份摘要,并利用强化学习对模型进行微调以优化该评分。结果表明,摘要质量显著提高,甚至超过了那些在人类参考范例上训练的模型[4]

RLHF 在大型语言模型中的应用

大型语言模型通过引入 RLHF,在提升回答的有用性、准确性和指令遵循方面获得了巨大益处。

InstructGPT and ChatGPT - InstructGPT 与 ChatGPT

OpenAI 的一项研究是关键一步,它推出了 InstructGPT 模型(2022年)—— 这是在人类参与下进行微调的 GPT-3 版本[5]。该方法包括三个阶段:

  1. 监督微调(Supervised Fine-Tuning, SFT):在一个小规模高质量的示范数据集上对模型进行微调,其中人类评估员针对各种提示手动编写了理想的回答示例。
  2. 训练奖励模型(Reward Model):针对大量提示,模型生成多个回答。人类评估员将这些回答从最好到最差进行排序。基于这些偏好数据,训练一个奖励模型,使其学会为人类偏好的回答赋予更高的分数。
  3. 通过强化学习进行优化:使用近端策略优化(Proximal Policy Optimization, PPO)算法对原始语言模型进行微调,以最大化奖励模型给出的分数。在优化过程中,还会引入一个惩罚项,以防止模型严重偏离原始 SFT 模型,从而避免语言能力的退化。

测试表明,即使是相对较小的 InstructGPT 模型(13亿参数)在实用性上也超过了庞大的 GPT-3 模型(1750亿参数)。InstructGPT 模型生成有毒、带偏见或不实内容的频率也显著降低[5]

这一系列研究的发展催生了对话模型,其中最著名的是 ChatGPT(OpenAI,2022年底)。ChatGPT 是 GPT-3.5 系列中的一个模型,它使用类似的 RLHF 方法专门为对话进行了微调[6]

业界采纳

RLHF 方法也已被其他顶尖机构采纳。DeepMind 开发了对话代理 Sparrow(2022年),该模型通过 RLHF 进行训练,并额外加入了一套自然语言规则(例如,“不要提供危险的建议”)[7]。Anthropic 公司也利用了相似的原则来训练其模型。到2023年,RLHF 已基本成为构建最先进语言模型的标准组成部分[1]

RLHF 的应用优势

  • 符合用户意图:经过 RLHF 调优的模型能更好地遵循指令,并提供更相关、更有用的回答[5]
  • 减少有毒和有害内容:将人类纳入训练循环,可以明确惩罚不受欢迎的回答形式。因此,经过 RLHF 训练的模型生成的有毒和带偏见的内容要少得多[5]
  • 提升真实性并减少“幻觉”:评估员可以降低包含捏造事实的回答的评分,从而促使模型更加准确。与它们的“前辈”相比,InstructGPT 和 ChatGPT 模型更少“凭空捏造”事实[5]
  • 训练效率:RLHF 能够在不相应增加训练样本规模的情况下改进模型。它需要的不是海量数据,而是高质量的偏好评估。

局限性与挑战

尽管 RLHF 取得了成功,但该方法仍存在一些局限和开放性问题。

  • 人类数据收集的质量与成本:RLHF 的有效性直接取决于反馈的质量。收集这样的数据集是一个劳动密集且成本高昂的过程。此外,如果评估员的抽样或其标准存在偏见,模型可能会继承这些偏见[2]
  • “奖励 hacking”风险Reward Hacking):一个为特定奖励函数进行优化的模型,可能会开始迎合这个函数本身,而不是真正的目标。例如,如果评估员偏爱长篇回答,模型可能会学会给出尽可能长的回答;或者如果因不准确而受到惩罚,模型可能会避免做出任何明确的陈述。
  • 无法保证真实性:RLHF 并未向模型注入新的事实知识,只是教会它如何以人类喜欢的方式回答。因此,幻觉问题并未得到根本解决。模型可能学会更好地隐藏不确定性,但并不总能核实事实[6]
  • 偏好的可扩展性:奖励模型在其他任务上的泛化能力也存在问题。一个在特定类型提示的偏好上训练的模型,在遇到风格或主题新颖的任务时,其行为可能变得不可预测。

结论

RLHF 已成为“对齐”大型语言模型与人类对优质回答认知的重要方法。它显著改善了与 AI 助手的交互质量,使其回答更加有用和安全。RLHF 被视为创造新一代模型的关键工具,这些模型不仅能生成看似合理的文本,还能在沟通过程中考虑人类的价值观、偏好和意图[8]

链接

参考文献

  • Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. arXiv:1706.03741.
  • Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325.
  • Nakano, R. et al. (2021). WebGPT: Browser-Assisted Question-Answering with Human Feedback. arXiv:2112.09332.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Glaese, A. et al. (2022). Improving Alignment of Dialogue Agents via Targeted Human Judgements. arXiv:2209.14375.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Liu, T. et al. (2023). A Survey of Reinforcement Learning from Human Feedback. arXiv:2312.14925.
  • Zhang, Y. et al. (2024). A Survey on Human Preference Learning for Large Language Models. arXiv:2406.11191.
  • Li, P. et al. (2024). Advancing Translation Preference Modeling with RLHF. arXiv:2402.11525.
  • McAleese, N. et al. (2024). LLM Critics Help Catch LLM Bugs. arXiv:2407.00215.

注释

  1. 1.0 1.1 “What Is Reinforcement Learning From Human Feedback (RLHF)?”. IBM. [1]
  2. 2.0 2.1 “Reinforcement learning from human feedback”. In Wikipedia. [2]
  3. Christiano, P. et al. “Deep reinforcement learning from human preferences”. arXiv:1706.03741, 2017. [3]
  4. Stiennon, N. et al. “Learning to summarize from human feedback”. arXiv:2009.01325, 2020. [4]
  5. 5.0 5.1 5.2 5.3 5.4 Ouyang, L. et al. “Training language models to follow instructions with human feedback”. arXiv:2203.02155, 2022. [5]
  6. 6.0 6.1 “Introducing ChatGPT”. OpenAI, 2022. [6]
  7. Glaese, A. et al. “Improving alignment of dialogue agents via targeted human judgements”. arXiv:2209.14375, 2022. [7]
  8. “Aligning language models to follow instructions”. OpenAI. [8]