Constitutional AI — 宪法AI

From Systems analysis wiki
Jump to navigation Jump to search

宪法人工智能Constitutional AI,简称CAI)是一种训练大型语言模型(LLM)的方法,该方法基于一套明确的规则和原则(即所谓的“宪法”)来塑造AI的安全、合乎道德且可预测的行为。该方法由研究公司 Anthropic 于2022年开发,作为对基于人类反馈的强化学习(RLHF)的替代方案。

CAI 允许模型根据给定的价值体系自主评估和纠正其行为,从而在有用性、诚实性和无害性之间实现平衡。

历史与动机

该方法由 Anthropic 的研究人员提出,旨在应对 RLHF 方法的局限性,包括:

  • 需要大规模的人工标注;
  • 模型所学价值观不透明;
  • 模型倾向于拒绝潜在安全的请求;
  • 难以将价值观迁移到其他文化和规范背景中。

CAI 的开发旨在提高合乎道德的 AI 训练的透明度和可扩展性,同时确保遵守基本权利和规范。

理论基础

CAI 的核心思想是为模型明确设定一套反映普世人类价值观的规则(即宪法)。这些原则的示例包括:

  • 尊重人权(基于《世界人权宣言》[1]);
  • 禁止歧视、攻击和恶意内容;
  • 保护机密信息;
  • 优先考虑诚实和事实准确性;
  • 鼓励合作与非暴力互动。

与 RLHF 不同[2],在 RLHF 中,模型的行为倾向是通过标注者的偏好间接设定的,而 CAI 则使用一个明确阐述、可供审查和编辑的规范性条款清单。

架构与训练

CAI 的实现分为两个阶段:

  1. 自我批判学习阶段(Self-Critique Phase):模型针对一个请求生成回应,然后利用宪法原则,自主分析并修正自身违反既定规范的回应。这些(原始回应和修正后回应)配对被用于监督式微调(supervised fine-tuning)来进一步训练模型。
  2. 基于 AI 反馈的强化学习(RLAIF):对于多组回应,一个“裁判”模型(通常是同一模型)会从遵守宪法的角度对不同版本进行比较。然后,训练一个奖励模型,并使用此反馈通过强化学习(例如 PPO)对主模型进行微调。该方法完全避免了对有害内容的人工标注,而是依赖机器来监督价值观的遵守情况。

优势与特点

  • 透明性:宪法可以被发布、审查和验证。
  • 可扩展性:无需昂贵的人工标注。
  • 安全性:降低模型产生有害或歧视性行为的风险。
  • 有用性:与 RLHF 不同,模型不易出现过度拒绝。
  • 可控性:价值观可以根据法律或文化背景进行调整。

公众AI宪法:2023年实验

2023年,Anthropic 公司与研究倡议项目 Collective Intelligence Project[3] 合作,开展了一项史无前例的实验,旨在为 AI 制定一部“公众宪法”[4]。该项目的目标是探索如何将公众意见和民主原则融入到语言模型行为的规范性约束中。

超过1000人参与了这项研究,他们代表了美国公民的人口统计学平衡样本。参与者被要求评估和选择 AI 应遵循的价值观,并为聊天助手制定具体的行为准则。在此过程中,采用了集体投票、排序和论证选择等方法,包括对审议式民意测验(Deliberative Polling)和二次方投票(Quadratic Voting)等机制的改良版本。 实验的主要特点:

  • 规模 — 超过1000名受访者,涵盖广泛的政治观点、社会地位和教育水平;
  • 流程 — 规范的迭代讨论与完善、原则投票、措辞验证;
  • 成果 — 形成了一部反映民主表达偏好的 AI 替代宪法。

对“公众”宪法与原始宪法(由 Anthropic 专家制定)的比较分析显示,在基本原则上存在显著重合:

  • 禁止歧视,
  • 鼓励诚实,
  • 尊重隐私。

然而,“公众”版本更侧重于:

  • 信息获取的平等性;
  • 回应的客观性与公正性;
  • 用户获得模型解释的权利。

该实验表明,将民主机制引入 AI 规范框架的创建过程,有助于:

  • 提升 AI 行为在用户眼中的合法性;
  • 降低文化或政治偏见的风险;
  • 促进 AI 系统在社会中的广泛应用。

参考文献

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
  • Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
  • Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
  • Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
  • Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
  • Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
  • Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.

注释

  1. “宣言、公约、协定和其他法律材料”。[1]
  2. “Reinforcement Learning from Human Feedback”. 在维基百科 [2]
  3. “The Collective Intelligence Project”. https://www.cip.org.[3]
  4. “Collective Constitutional AI: Aligning a Language Model with Public Input”. [4]