Claude (Anthropic) — Claude(Anthropic 的大语言模型)

From Systems analysis wiki
Jump to navigation Jump to search

Claude 是由研究公司 Anthropic 开发的一个多模态大型语言模型(LLM)系列。

Claude 模型基于 Transformer 架构构建,定位为注重安全性、实用性和诚实性的 AI 助手。其开发的一个关键特点是 Constitutional AI(“宪法 AI”)方法,旨在创建可控且符合伦理的系统。

历史与理念

Anthropic 的创立与使命

Anthropic 公司于 2021 年由 OpenAI 的前高级员工创立,包括 Dario Amodei[1] 和 Daniela Amodei[2] 兄妹。他们离职的原因是与 OpenAI 管理层在发展方向上存在分歧,特别是担心与微软的合作以及日益增长的商业化可能会危及对 AI 安全的承诺。

Anthropic 的使命是“开发和维护先进的 AI,以造福人类的长远未来”。该公司在美国注册为公共利益公司(PBC),这在法律上要求它在财务利益与社会公共利益之间取得平衡。这一方法通过独特的治理结构得到加强,即设立了 长期利益信托基金(Long-Term Benefit Trust, LTBT,这是一个有权影响董事会组成的独立机构,以确保公司坚守其安全使命。

理念:HHH 与宪法 AI

Claude 模型行为的核心是 HHH 原则:Helpful, Honest, and Harmless(有益、诚实、无害)。为实现这些原则,Anthropic 开发了自己的训练方法——宪法 AI(Constitutional AI, CAI)。

与传统的 RLHF(基于人类反馈的强化学习)不同,在 RLHF 中,人类标注者直接评估模型的回答。而 CAI 使用一部“宪法”——一套明确的伦理原则,模型基于这些原则学习自我评估和修正其回答。这使得整个过程更具可扩展性、透明度和可控性。

架构与关键技术

基于 Transformer 架构

与其他现代 LLM 一样,Claude 采用仅解码器(decoder-only)的 Transformer 架构,以自回归方式逐个 token 生成文本。然而,Anthropic 在此基础上进行了重大改进,旨在提高性能、安全性和可控性。

宪法 AI (CAI)

CAI 的训练过程分为两个阶段:

  1. 监督学习阶段 (Supervised Learning): 模型针对提示生成回答,然后由另一个“评论家”模型根据“宪法”对其进行评估并提出修改建议。原始模型基于这些修正进行微调。
  2. AI 反馈强化学习阶段 (RLAIF): 模型生成一对回答,“评论家”模型根据“宪法”选择最佳答案。这些数据用于训练一个偏好模型(reward model),该模型随后作为奖励信号,通过强化学习算法对主模型进行微调。

长上下文与多模态能力

Claude 的主要优势之一是其巨大的上下文窗口。从 Claude 2 的 10 万 token 开始,到 Claude 3 增加到 20 万 token,再到 3.5 和 4.0 版本扩展到 100-200 万 token。这使得模型能够在一个请求中分析整本书、代码库或数小时的会议记录。

从 Claude 3 系列开始,模型具备了多模态能力,能够处理图像和文本。

混合思维与智能体能力

从 Claude 3.7 和 4.0 版本开始,引入了混合思维架构。该架构允许模型在两种模式之间切换:

  • 快速回答: 用于简单任务的标准模式。
  • 扩展思维 (Extended Thinking): 对于复杂任务,模型会暂停“思考”,执行内部推理步骤,调用工具(如网页搜索、代码执行),并形成一个更充分的答案。这使得整个过程更加透明和可靠。

Claude 模型的演进

Claude 1 和 2 (2023)

  • Claude 1 (2023年3月): 首个公开发布版本。推出了用于快速任务的 Claude Instant 模型和具有 10万 token 上下文窗口的旗舰版本。
  • Claude 2 (2023年7月): 改进版本,通过网页界面向公众开放。在编程(Codex HumanEval 得分 71%)和数学方面表现出显著提升。2023年11月发布的 Claude 2.1 版本将上下文窗口扩展至 20万 token

Claude 3 (2024年3月)

该系列首次在多项基准测试中超越 GPT-4。

  • 版本: Haiku(最快)、Sonnet(均衡)和 Opus(最强大)。
  • 关键创新: 引入多模态能力(图像分析),在推理和编程方面有显著改进,并减少了不必要的拒绝回答。Opus 在 MMLU 上的得分达到 86.8%。

Claude 3.5 (2024年6月)

一个专注于提升智能和速度的中间代。

  • Claude 3.5 Sonnet: 在性能上超越了 Claude 3 Opus,且速度是其两倍。引入了 Artifacts 功能[3]——一个用于处理生成代码或文档的交互式面板。

Claude 3.7 和 Claude 4 (2025)

专注于智能体能力和复杂推理的一代。

  • Claude 3.7 Sonnet (2025年2月): 引入混合思维,使模型能够将快速回答与深入的、分步推理相结合。
  • Claude 4 (2025年5月): 旗舰系列(Opus 4Sonnet 4),专注于自主 AI 智能体。模型能够执行多步骤任务,通过 Computer Use 功能与文件系统交互,调用工具,并支持长达数小时的工作会话而性能不下降。Opus 4 在高难度的 SWE-bench 编程基准测试中取得了 72.5% 的分数。

Claude 各代模型简表

Claude 模型关键特性演进
模型代际 发布年份 主要版本 最大上下文窗口 关键创新
Claude 1 2023 Claude, Instant 10万 token 首次公开发布,具备长上下文。
Claude 2 2023 Claude 2, 2.1 20万 token 改进了编程和推理能力,向公众开放。
Claude 3 2024 Opus, Sonnet, Haiku 20万+ token 多模态能力(图像),性能超越 GPT-4。
Claude 3.5 2024 Sonnet, Haiku 20万+ token 提升速度和智能,引入 “Artifacts” 功能。
Claude 4 / 3.7 2025 Opus, Sonnet 20万+ token 混合思维,智能体能力,工具使用。

应用与可用性

Claude 模型可通过多种渠道使用:

  • claude.ai 网页界面:提供免费访问(Sonnet 模型)和付费订阅(Pro、Max),可使用更强大的模型(Opus)并享有更高的使用限额。
  • 开发者 API: Anthropic 提供商业 API,允许将 Claude 集成到第三方应用程序中。价格因模型而异(Haiku 最便宜,Opus 最贵)。
  • 云平台: Claude 可通过 Amazon BedrockGoogle Cloud Vertex AI 使用,简化了其在企业环境中的部署。
  • 集成: Claude 已集成到多个流行服务中,如 Slack、Notion、Quora(通过其聊天机器人 Poe)。

参考文献

外部链接

参考文献

  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Bulatov, A. et al. (2023). Scaling Transformer to 1M Tokens and Beyond with RMT. arXiv:2304.11062.
  • Jimenez, C. E. et al. (2023). SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. arXiv:2310.06770.
  • Yuan, W. et al. (2024). Self-Rewarding Language Models. arXiv:2401.10020.
  • Yang, A. et al. (2024). Context Parallelism for Scalable Million-Token Inference. arXiv:2411.01783.
  • Miranda, L. J. V. et al. (2024). Hybrid Preferences: Learning to Route Instances for Human vs AI Feedback. arXiv:2410.19133.
  • Chittepu, Y. et al. (2025). Reinforcement Learning from Human Feedback with High-Confidence Safety Constraints. arXiv:2506.08266.
  • Yuan, W. et al. (2025). Process-based Self-Rewarding Language Models. arXiv:2503.03746.
  • Yang, B. et al. (2025). Long Context Windows in Generative AI: An AI Atlas Report. [4] (tech-report, open review).

注释

  1. “Dario Amodei”. In Wikipedia [1]
  2. “Daniela Amodei”. In Wikipedia [2]
  3. “What Are Artifacts and How Do I Use Them? | Anthropic Help Center”.[3]