Constitutional AI — 立憲AI
立憲AI (Constitutional AI, CAI) とは、AIの安全で倫理的、かつ予測可能な振る舞いを形成するため、明示的な一連のルールと原則(いわゆる「憲法」)を用いて大規模言語モデル (LLM) を学習させる手法である。このアプローチは、研究企業Anthropicによって2022年に、人間からのフィードバックによる強化学習 (RLHF) の代替手法として開発された。
CAIにより、モデルは所定の価値体系に従って自らの振る舞いを自己評価・修正することが可能となり、有用性、誠実性、無害性のバランスが確保される。
歴史と動機
この手法は、RLHFアプローチの限界に対応するため、Anthropicの研究者によって提案された。その限界には以下のようなものが含まれる:
- 大規模な手作業によるラベリングの必要性
- モデルが学習した価値観の不透明性
- 潜在的に安全なプロンプトに対するモデルの拒否傾向
- 他の文化的・規範的文脈への価値観の移植の難しさ
CAIは、倫理的なAIの学習における透明性とスケーラビリティを向上させ、同時に基本的人権と規範の遵守を確保することを目的として開発された。
理論的基礎
CAIは、普遍的な人間の価値を反映した一連のルール(憲法)をモデルに明示的に与えるという考えに基づいている。そのような原則の例としては、以下が挙げられる:
- 人権の尊重(世界人権宣言に基づく[1])
- 差別、攻撃性、有害性の禁止
- 機密情報の保護
- 誠実性と事実の正確性の優先
- 協力と非暴力的な相互作用の奨励
RLHF[2]では、アノテーターの好みを介してモデルの行動指針が間接的に設定されるのに対し、CAIは、検証や編集が可能な、明示的に策定された規範的条項のリストを使用する。
アーキテクチャと学習
CAIは2つのフェーズで実装される:
- 自己批判による学習(Self-Critique Phase): モデルはプロンプトへの応答を生成し、その後、憲法の原則を用いて、生成した応答が所定の規範に違反している場合に自ら分析し修正する。このようなペア(元の応答と修正された応答)が、教師ありファインチューニング(supervised fine-tuning)形式でモデルの追加学習に使用される。
- AIフィードバックによる強化学習(RLAIF): 多数の応答ペアに対して、ジャッジモデル(通常は同じモデル)が憲法遵守の観点から各選択肢を比較する。その後、報酬モデルが訓練され、メインモデルがこのフィードバックに基づいてRL(例:PPO)を用いて追加学習される。この手法は、有害なコンテンツの手作業によるラベリングを完全に排除し、機械による価値観遵守の管理に基づいている。
利点と特徴
- 透明性: 憲法は公開、査読、検証が可能である。
- スケーラビリティ: 高コストな手作業のアノテーションが不要である。
- 安全性: モデルの有害または差別的な振る舞いのリスクを低減する。
- 有用性: RLHFの場合と異なり、モデルは過度な応答拒否に陥りにくい。
- 制御可能性: 法的または文化的な文脈に合わせて価値観を調整できる。
市民によるAI憲法:2023年の実験
2023年、Anthropic社は研究イニシアティブ「Collective Intelligence Project」[3]と共同で、AIのための「市民による憲法」を策定するという、史上初の実験を行った[4]。このプロジェクトの目的は、言語モデルの行動に対する規範的制約の形成に、世論と民主主義の原則をどのように統合できるかを明らかにすることであった。
この研究には、米国の人口動態を反映したバランスの取れたサンプルである1000人以上が参加した。参加者は、AIが従うべき価値観を評価・選択し、チャットアシスタントのための具体的な行動原則を策定するよう求められた。その過程では、熟議的世論調査(Deliberative Polling)や二次投票(Quadratic Voting)といったメカニズムの修正版を含む、集団投票、ランキング、論証に基づく選択といった手法が用いられた。 実験の主な特徴は以下の通りである:
- 規模 — 幅広い政治的見解、社会的地位、教育水準を網羅する1000人以上の回答者。
- 手続き — 規範の反復的な議論と洗練、原則への投票、文言の検証。
- 結果 — 民主的に表明された好みを指向する、代替的なAI憲法の形成。
「市民による」憲法と、元々の(Anthropicの専門家が策定した)憲法との比較分析により、基本原則において多くの点で一致が見られた:
- 差別の禁止、
- 誠実性の奨励、
- プライバシーの尊重。
しかし、「市民による」バージョンは、以下の点により重点を置いていた:
- 情報へのアクセスの平等
- 応答の客観性と公平性
- モデルの説明を求めるユーザーの権利
この実験は、AIの規範的枠組みの構築プロセスに民主的なメカニズムを導入することが、以下の点に貢献しうることを示した:
- ユーザーから見たAIの行動の正当性
- 文化的または政治的な偏見のリスクの低減
- 社会におけるAIシステムのより広範な受容
参考文献
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
- Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
- Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
- Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
- Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
- Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
- Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
- Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
- Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.