Open-weight and closed-weight models — 开放权重与封闭权重模型
Open-weight 与 Closed-weight 模型是在开发和分发大语言模型(LLM)过程中的两种根本不同的方法,构成了现代人工智能生态系统中的一个关键二分法。在这两种方法之间的选择影响着人工智能的技术能力、经济性、安全性以及未来发展[1]。
其区别在于模型训练后参数(权重)的可用性。Open-weight 模型会公布其权重,允许社区使用、修改和本地部署。而 Closed-weight 模型则将权重保密,仅通过专有 API 提供其功能访问[2]。
定义与主要区别
Open-weight 模型(开放权重)
Open-weight 模型是指神经网络的训练参数(权重)可供公众使用、修改和分发的系统。根据 OpenAI 的 Andrej Karpathy 的定义,这类模型类似于“交付操作系统的二进制文件”——用户获得一个可用的产品,但通常无法访问训练源代码或训练数据。
主要特点:
- 本地部署:能够在自有硬件上运行模型,从而实现对数据和隐私的完全控制。
- 微调 (Fine-tuning):能够根据特定任务和领域调整模型。
- 透明度与审计:研究人员可以审查模型的内部机制,以发现偏见和漏洞。
Closed-weight 模型(封闭权重)
Closed-weight 模型(也称为专有模型)是指其参数为商业机密,仅通过 API 或有限许可提供访问的系统。像 OpenAI 和 Anthropic 这样的开发公司完全控制模型的架构、训练方法和推理机制。GPT-4 的技术报告中明确指出,出于“竞争环境和大规模模型安全影响的考虑”,拒绝透露细节[3]。
主要特点:
- 中心化控制:开发者管理更新、安全和使用策略。
- 易用性:通过 API 访问,用户无需管理复杂的基础设施。
- 不透明性:无法访问内部机制,使得独立审计变得不可能,并且难以理解错误或带有偏见的回答的原因。
与开源(Open-source)的区别
区分 open-weight 和 open-source 这两个术语非常重要。一个真正的 open-source 模型意味着发布复现所需的所有构件:权重、架构、训练代码和数据集。大多数现代的“开放”模型,如 Meta 的 Llama,都是 open-weight,但并非完全 open-source,因为它们的训练数据和确切的训练方法仍然是保密的。
对比分析:性能、成本与创新
性能与定制化
从历史上看,像 GPT-4 这样的 closed-weight 模型在通用基准测试中一直处于领先地位。然而,性能差距正在迅速缩小。根据《斯坦福 AI 指数 2025》的数据,这一差距在过去一年中从 8% 缩小到了 1.7%[1]。强大的 open-weight 模型,如 Meta 的 LLaMA 3.1 405B 和 DeepSeek-V3,表现出相当的性能,在某些任务上(尤其是在编程方面)甚至超越了对手[4]。
Open-weight 模型的一个关键优势在于深度定制化。在特定数据上进行微调的能力,使其在医学或法律等狭窄领域能够超越规模更大但更通用的 closed-weight 模型。
经济方面
- 训练成本:创建前沿(frontier)模型的成本极其高昂。GPT-4 的训练成本估计超过1亿美元。而像 DeepSeek-V3 这样的 open-weight 模型,以550万美元的成本就达到了相似的性能,从而使强大系统的创建变得更加大众化。
- 使用成本(推理):Closed-weight 模型通过 API 按使用量付费(pay-per-use),在大规模使用时可能导致高昂的费用。而本地部署的 open-weight 模型需要初期基础设施投资,但在规模化应用时,其总拥有成本(TCO)要低得多。
对科学研究与创新的影响
Open-weight 模型通过提供可复现性和大众化访问,从根本上改变了科学研究。世界各地的研究人员可以分析、批评和改进开放模型,这创造了一个充满活力的生态系统,并加速了技术进步。相反,封闭模型则造成了“可复现性危机”,因为其声称的结果无法被独立验证。
安全与伦理困境
安全问题是开放与控制之争的核心困境。
- Closed-weight 方法(中心化预防):像 OpenAI 和 Anthropic 这样的开发者采用预防性方法。他们实施复杂的安全过滤器,进行密集的“红队演练”(red teaming),并遵守严格的政策,例如 Anthropic 的责任扩展政策(Responsible Scaling Policy),承诺不部署超过特定风险阈值的模型[5]。
- Open-weight 方法(去中心化弹性):这种理念与开源世界的哲学相似,即“只要有足够多的眼睛,所有 Bug 都是浅显的”。社区可以更快地发现和修复漏洞。然而,这也带来了风险:恶意行为者同样可以轻易地研究模型以寻找漏洞,或通过微调移除安全防护机制。
研究表明,人类意图而非模型的可用性,是主要的风险因素。在记录在案的生成式 AI 滥用案例中,90% 与利用其允许的功能有关,而非系统本身产生的危害。
监管方法:欧盟与美国
- 欧盟《AI法案》:采取一种预防性的、基于风险的方法。该法案对具有“系统性风险”的模型(训练算力需求超过 1025 FLOPS)施加了严格的义务,但为不构成此类风险的开源模型提供了有限的豁免。这既激励了透明度,也带来了监管的复杂性。
- 美国的方法:基于通过行业标准鼓励创新和管理风险。拜登总统的第14110号行政命令及随后的 NTIA 报告建议,不要立即对 open-weight 模型施加限制,而是提议建立一个监控系统,以便根据事实数据做出决策[6]。
关键模型与参与者
| 模型类型 | 模型 | 开发者 | 主要特点 |
|---|---|---|---|
| Open-weight | LLaMA 3.1 | Meta | 性能卓越,为开放模型树立了标杆;拥有庞大的社区。 |
| Mixtral 8x7B | Mistral AI | “混合专家”(MoE)架构,以低推理成本实现高性能。 | |
| Closed-weight | GPT-4 / GPT-4o | OpenAI | 历史上的性能领导者,具备强大的多模态能力。 |
| Claude 4 Opus | Anthropic | 专注于安全与伦理(Constitutional AI),拥有超大上下文窗口。 |
链接
- Stanford AI Index Report 2025 — 关于人工智能发展状况的年度报告。
- NTIA 关于开放权重模型的报告
参考文献
- OpenAI et al. (2023). GPT-4 Technical Report. arXiv:2303.08774.
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288.
- DeepSeek-AI (2025). DeepSeek-V3 Technical Report. arXiv:2412.19437.
- Kapoor, S.; Bommasani, R. et al. (2024). On the Societal Impact of Open Foundation Models. arXiv:2403.07918.
- U.S. NTIA (2024). Dual-Use Foundation Models with Widely Available Model Weights. NTIA Report.
- Stanford HAI (2025). Artificial Intelligence Index Report 2025. Full PDF.
- Anthropic (2023). Responsible Scaling Policy. Anthropiс RSP.
- Klyman, K. et al. (2024). A Design Framework for Open-Source Foundation Model Safety. arXiv:2406.10415.
- Kembery, E.; Reed, T. (2024). AI Safety Frameworks Should Include Procedure for Model Access Decisions. arXiv:2411.10547.
- European Commission (2024). General-Purpose AI Models in the AI Act – Q&A. EU AI Act FAQ.
- Zhang, X. et al. (2025). Mitigating Cyber Risk in the Age of Open-Weight LLMs. arXiv:2505.17109.
- Biderman, S. et al. (2024). Risks and Opportunities of Open-Source Generative AI. arXiv:2405.08597.
注释
- ↑ 1.0 1.1 《Artificial Intelligence Index Report 2025》。Stanford University HAI。[1] 检索于2025年7月4日。
- ↑ Karpathy, Andrej. “On Open-sourcing LLMs”. X (formerly Twitter).
- ↑ 《GPT-4 Technical Report》。OpenAI。[2]
- ↑ 《DeepSeek-V2 and DeepSeek-Coder-V2 Technical Report》。
- ↑ 《Anthropic's Responsible Scaling Policy》。Anthropic。
- ↑ 《Dual-Use Foundation Models with Widely Available Model Weights》。U.S. Department of Commerce, NTIA。(2024)。