Reinforcement learning from human feedback (RLHF) — 基于人类反馈的强化学习

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）是一种机器学习方法，它首先利用人类反馈来训练一个专门的“奖励模型”（reward model），然后该模型在强化学习（RL）过程中被用来优化智能代理的行为^[1]。

RLHF 能够通过人类的评估来形式化那些复杂或难以定义的目标（例如，一个“有用的”、“安全的”或“有趣的”回答）。RLHF 无需手动定义复杂的奖励函数，而是直接根据人类偏好来训练奖励模型。这种方法已成为“对齐”（alignment）大型语言模型（LLM）的关键，即将其行为与人类的价值观和意图保持一致^[2]。

方法的发展与早期成就

使用人类反馈来训练代理的思想起源于2010年代。最早的重大成果之一是2017年 Paul Christiano 及其 OpenAI 和 DeepMind 的同事们所做的工作。他们证明，在复杂的强化学习任务中，人类偏好可以替代手动设定的奖励函数。在他们的实验中，人类观察代理行为的片段（例如，在 Atari 游戏中），并选择更偏好的一个。基于这些成对比较，研究人员训练出了一个奖励模型，这使得仅凭不到1%的代理行为反馈，就能成功解决一系列复杂问题^[3]。

在随后的几年里，该方法开始被应用于训练语言模型。2020年，OpenAI 的研究人员首次将 RLHF 应用于文本摘要任务。他们训练了一个奖励模型来预测人类会偏好哪一份摘要，并利用强化学习对模型进行微调以优化该评分。结果表明，摘要质量显著提高，甚至超过了那些在人类参考范例上训练的模型^[4]。

RLHF 在大型语言模型中的应用

大型语言模型通过引入 RLHF，在提升回答的有用性、准确性和指令遵循方面获得了巨大益处。

InstructGPT and ChatGPT - InstructGPT 与 ChatGPT

OpenAI 的一项研究是关键一步，它推出了 InstructGPT 模型（2022年）—— 这是在人类参与下进行微调的 GPT-3 版本^[5]。该方法包括三个阶段：

监督微调（Supervised Fine-Tuning, SFT）：在一个小规模高质量的示范数据集上对模型进行微调，其中人类评估员针对各种提示手动编写了理想的回答示例。
训练奖励模型（Reward Model）：针对大量提示，模型生成多个回答。人类评估员将这些回答从最好到最差进行排序。基于这些偏好数据，训练一个奖励模型，使其学会为人类偏好的回答赋予更高的分数。
通过强化学习进行优化：使用近端策略优化（Proximal Policy Optimization, PPO）算法对原始语言模型进行微调，以最大化奖励模型给出的分数。在优化过程中，还会引入一个惩罚项，以防止模型严重偏离原始 SFT 模型，从而避免语言能力的退化。

测试表明，即使是相对较小的 InstructGPT 模型（13亿参数）在实用性上也超过了庞大的 GPT-3 模型（1750亿参数）。InstructGPT 模型生成有毒、带偏见或不实内容的频率也显著降低^[5]。

这一系列研究的发展催生了对话模型，其中最著名的是 ChatGPT（OpenAI，2022年底）。ChatGPT 是 GPT-3.5 系列中的一个模型，它使用类似的 RLHF 方法专门为对话进行了微调^[6]。

业界采纳

RLHF 方法也已被其他顶尖机构采纳。DeepMind 开发了对话代理 Sparrow（2022年），该模型通过 RLHF 进行训练，并额外加入了一套自然语言规则（例如，“不要提供危险的建议”）^[7]。Anthropic 公司也利用了相似的原则来训练其模型。到2023年，RLHF 已基本成为构建最先进语言模型的标准组成部分^[1]。

RLHF 的应用优势

符合用户意图：经过 RLHF 调优的模型能更好地遵循指令，并提供更相关、更有用的回答^[5]。
减少有毒和有害内容：将人类纳入训练循环，可以明确惩罚不受欢迎的回答形式。因此，经过 RLHF 训练的模型生成的有毒和带偏见的内容要少得多^[5]。
提升真实性并减少“幻觉”：评估员可以降低包含捏造事实的回答的评分，从而促使模型更加准确。与它们的“前辈”相比，InstructGPT 和 ChatGPT 模型更少“凭空捏造”事实^[5]。
训练效率：RLHF 能够在不相应增加训练样本规模的情况下改进模型。它需要的不是海量数据，而是高质量的偏好评估。

局限性与挑战

尽管 RLHF 取得了成功，但该方法仍存在一些局限和开放性问题。

人类数据收集的质量与成本：RLHF 的有效性直接取决于反馈的质量。收集这样的数据集是一个劳动密集且成本高昂的过程。此外，如果评估员的抽样或其标准存在偏见，模型可能会继承这些偏见^[2]。
“奖励 hacking”风险（Reward Hacking）：一个为特定奖励函数进行优化的模型，可能会开始迎合这个函数本身，而不是真正的目标。例如，如果评估员偏爱长篇回答，模型可能会学会给出尽可能长的回答；或者如果因不准确而受到惩罚，模型可能会避免做出任何明确的陈述。
无法保证真实性：RLHF 并未向模型注入新的事实知识，只是教会它如何以人类喜欢的方式回答。因此，幻觉问题并未得到根本解决。模型可能学会更好地隐藏不确定性，但并不总能核实事实^[6]。
偏好的可扩展性：奖励模型在其他任务上的泛化能力也存在问题。一个在特定类型提示的偏好上训练的模型，在遇到风格或主题新颖的任务时，其行为可能变得不可预测。

结论

RLHF 已成为“对齐”大型语言模型与人类对优质回答认知的重要方法。它显著改善了与 AI 助手的交互质量，使其回答更加有用和安全。RLHF 被视为创造新一代模型的关键工具，这些模型不仅能生成看似合理的文本，还能在沟通过程中考虑人类的价值观、偏好和意图^[8]。

链接

参考文献

Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. arXiv:1706.03741.
Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325.
Nakano, R. et al. (2021). WebGPT: Browser-Assisted Question-Answering with Human Feedback. arXiv:2112.09332.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
Glaese, A. et al. (2022). Improving Alignment of Dialogue Agents via Targeted Human Judgements. arXiv:2209.14375.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
Liu, T. et al. (2023). A Survey of Reinforcement Learning from Human Feedback. arXiv:2312.14925.
Zhang, Y. et al. (2024). A Survey on Human Preference Learning for Large Language Models. arXiv:2406.11191.
Li, P. et al. (2024). Advancing Translation Preference Modeling with RLHF. arXiv:2402.11525.
McAleese, N. et al. (2024). LLM Critics Help Catch LLM Bugs. arXiv:2407.00215.

注释

↑ ^1.0 ^1.1 “What Is Reinforcement Learning From Human Feedback (RLHF)?”. IBM. [1]
↑ ^2.0 ^2.1 “Reinforcement learning from human feedback”. In Wikipedia. [2]
↑ Christiano, P. et al. “Deep reinforcement learning from human preferences”. arXiv:1706.03741, 2017. [3]
↑ Stiennon, N. et al. “Learning to summarize from human feedback”. arXiv:2009.01325, 2020. [4]
↑ ^5.0 ^5.1 ^5.2 ^5.3 ^5.4 Ouyang, L. et al. “Training language models to follow instructions with human feedback”. arXiv:2203.02155, 2022. [5]
↑ ^6.0 ^6.1 “Introducing ChatGPT”. OpenAI, 2022. [6]
↑ Glaese, A. et al. “Improving alignment of dialogue agents via targeted human judgements”. arXiv:2209.14375, 2022. [7]
↑ “Aligning language models to follow instructions”. OpenAI. [8]

[ibm_rlhf-1] 1.0 ^1.1 “What Is Reinforcement Learning From Human Feedback (RLHF)?”. IBM. [1]

[wiki_rlhf-2] 2.0 ^2.1 “Reinforcement learning from human feedback”. In Wikipedia. [2]

[christiano_2017-3] Christiano, P. et al. “Deep reinforcement learning from human preferences”. arXiv:1706.03741, 2017. [3]

[stiennon_2020-4] Stiennon, N. et al. “Learning to summarize from human feedback”. arXiv:2009.01325, 2020. [4]

[ouyang_2022-5] 5.0 ^5.1 ^5.2 ^5.3 ^5.4 Ouyang, L. et al. “Training language models to follow instructions with human feedback”. arXiv:2203.02155, 2022. [5]

[chatgpt_intro-6] 6.0 ^6.1 “Introducing ChatGPT”. OpenAI, 2022. [6]

[glaese_2022-7] Glaese, A. et al. “Improving alignment of dialogue agents via targeted human judgements”. arXiv:2209.14375, 2022. [7]

[openai_aligning-8] “Aligning language models to follow instructions”. OpenAI. [8]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Reinforcement learning from human feedback (RLHF) — 基于人类反馈的强化学习

Contents

方法的发展与早期成就

RLHF 在大型语言模型中的应用

InstructGPT and ChatGPT - InstructGPT 与 ChatGPT

业界采纳

RLHF 的应用优势

局限性与挑战

结论

链接

参考文献

注释

Navigation menu

Reinforcement learning from human feedback (RLHF) — 基于人类反馈的强化学习

方法的发展与早期成就

RLHF 在大型语言模型中的应用

InstructGPT and ChatGPT - InstructGPT 与 ChatGPT

业界采纳

RLHF 的应用优势

局限性与挑战

结论

链接

参考文献

注释

Navigation menu

Search