Open-weight and closed-weight models — 开放权重与封闭权重模型

Open-weight 与 Closed-weight 模型是在开发和分发大语言模型（LLM）过程中的两种根本不同的方法，构成了现代人工智能生态系统中的一个关键二分法。在这两种方法之间的选择影响着人工智能的技术能力、经济性、安全性以及未来发展^[1]。

其区别在于模型训练后参数（权重）的可用性。Open-weight 模型会公布其权重，允许社区使用、修改和本地部署。而 Closed-weight 模型则将权重保密，仅通过专有 API 提供其功能访问^[2]。

定义与主要区别

Open-weight 模型（开放权重）

Open-weight 模型是指神经网络的训练参数（权重）可供公众使用、修改和分发的系统。根据 OpenAI 的 Andrej Karpathy 的定义，这类模型类似于“交付操作系统的二进制文件”——用户获得一个可用的产品，但通常无法访问训练源代码或训练数据。

主要特点：

本地部署：能够在自有硬件上运行模型，从而实现对数据和隐私的完全控制。
微调 (Fine-tuning)：能够根据特定任务和领域调整模型。
透明度与审计：研究人员可以审查模型的内部机制，以发现偏见和漏洞。

Closed-weight 模型（封闭权重）

Closed-weight 模型（也称为专有模型）是指其参数为商业机密，仅通过 API 或有限许可提供访问的系统。像 OpenAI 和 Anthropic 这样的开发公司完全控制模型的架构、训练方法和推理机制。GPT-4 的技术报告中明确指出，出于“竞争环境和大规模模型安全影响的考虑”，拒绝透露细节^[3]。

主要特点：

中心化控制：开发者管理更新、安全和使用策略。
易用性：通过 API 访问，用户无需管理复杂的基础设施。
不透明性：无法访问内部机制，使得独立审计变得不可能，并且难以理解错误或带有偏见的回答的原因。

与开源（Open-source）的区别

区分 open-weight 和 open-source 这两个术语非常重要。一个真正的 open-source 模型意味着发布复现所需的所有构件：权重、架构、训练代码和数据集。大多数现代的“开放”模型，如 Meta 的 Llama，都是 open-weight，但并非完全 open-source，因为它们的训练数据和确切的训练方法仍然是保密的。

对比分析：性能、成本与创新

性能与定制化

从历史上看，像 GPT-4 这样的 closed-weight 模型在通用基准测试中一直处于领先地位。然而，性能差距正在迅速缩小。根据《斯坦福 AI 指数 2025》的数据，这一差距在过去一年中从 8% 缩小到了 1.7%^[1]。强大的 open-weight 模型，如 Meta 的 LLaMA 3.1 405B 和 DeepSeek-V3，表现出相当的性能，在某些任务上（尤其是在编程方面）甚至超越了对手^[4]。

Open-weight 模型的一个关键优势在于深度定制化。在特定数据上进行微调的能力，使其在医学或法律等狭窄领域能够超越规模更大但更通用的 closed-weight 模型。

经济方面

训练成本：创建前沿（frontier）模型的成本极其高昂。GPT-4 的训练成本估计超过1亿美元。而像 DeepSeek-V3 这样的 open-weight 模型，以550万美元的成本就达到了相似的性能，从而使强大系统的创建变得更加大众化。
使用成本（推理）：Closed-weight 模型通过 API 按使用量付费（pay-per-use），在大规模使用时可能导致高昂的费用。而本地部署的 open-weight 模型需要初期基础设施投资，但在规模化应用时，其总拥有成本（TCO）要低得多。

对科学研究与创新的影响

Open-weight 模型通过提供可复现性和大众化访问，从根本上改变了科学研究。世界各地的研究人员可以分析、批评和改进开放模型，这创造了一个充满活力的生态系统，并加速了技术进步。相反，封闭模型则造成了“可复现性危机”，因为其声称的结果无法被独立验证。

安全与伦理困境

安全问题是开放与控制之争的核心困境。

Closed-weight 方法（中心化预防）：像 OpenAI 和 Anthropic 这样的开发者采用预防性方法。他们实施复杂的安全过滤器，进行密集的“红队演练”（red teaming），并遵守严格的政策，例如 Anthropic 的责任扩展政策（Responsible Scaling Policy），承诺不部署超过特定风险阈值的模型^[5]。
Open-weight 方法（去中心化弹性）：这种理念与开源世界的哲学相似，即“只要有足够多的眼睛，所有 Bug 都是浅显的”。社区可以更快地发现和修复漏洞。然而，这也带来了风险：恶意行为者同样可以轻易地研究模型以寻找漏洞，或通过微调移除安全防护机制。

研究表明，人类意图而非模型的可用性，是主要的风险因素。在记录在案的生成式 AI 滥用案例中，90% 与利用其允许的功能有关，而非系统本身产生的危害。

监管方法：欧盟与美国

欧盟《AI法案》：采取一种预防性的、基于风险的方法。该法案对具有“系统性风险”的模型（训练算力需求超过 10²⁵ FLOPS）施加了严格的义务，但为不构成此类风险的开源模型提供了有限的豁免。这既激励了透明度，也带来了监管的复杂性。
美国的方法：基于通过行业标准鼓励创新和管理风险。拜登总统的第14110号行政命令及随后的 NTIA 报告建议，不要立即对 open-weight 模型施加限制，而是提议建立一个监控系统，以便根据事实数据做出决策^[6]。

关键模型与参与者

主流 Open-weight 与 Closed-weight 模型对比表
模型类型	模型	开发者	主要特点
Open-weight	LLaMA 3.1	Meta	性能卓越，为开放模型树立了标杆；拥有庞大的社区。
Open-weight	Mixtral 8x7B	Mistral AI	“混合专家”（MoE）架构，以低推理成本实现高性能。
Closed-weight	GPT-4 / GPT-4o	OpenAI	历史上的性能领导者，具备强大的多模态能力。
Closed-weight	Claude 4 Opus	Anthropic	专注于安全与伦理（Constitutional AI），拥有超大上下文窗口。

链接

Stanford AI Index Report 2025 — 关于人工智能发展状况的年度报告。
NTIA 关于开放权重模型的报告

参考文献

OpenAI et al. (2023). GPT-4 Technical Report. arXiv:2303.08774.
Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288.
DeepSeek-AI (2025). DeepSeek-V3 Technical Report. arXiv:2412.19437.
Kapoor, S.; Bommasani, R. et al. (2024). On the Societal Impact of Open Foundation Models. arXiv:2403.07918.
U.S. NTIA (2024). Dual-Use Foundation Models with Widely Available Model Weights. NTIA Report.
Stanford HAI (2025). Artificial Intelligence Index Report 2025. Full PDF.
Anthropic (2023). Responsible Scaling Policy. Anthropiс RSP.
Klyman, K. et al. (2024). A Design Framework for Open-Source Foundation Model Safety. arXiv:2406.10415.
Kembery, E.; Reed, T. (2024). AI Safety Frameworks Should Include Procedure for Model Access Decisions. arXiv:2411.10547.
European Commission (2024). General-Purpose AI Models in the AI Act – Q&A. EU AI Act FAQ.
Zhang, X. et al. (2025). Mitigating Cyber Risk in the Age of Open-Weight LLMs. arXiv:2505.17109.
Biderman, S. et al. (2024). Risks and Opportunities of Open-Source Generative AI. arXiv:2405.08597.

注释

↑ ^1.0 ^1.1 《Artificial Intelligence Index Report 2025》。Stanford University HAI。[1] 检索于2025年7月4日。
↑ Karpathy, Andrej. “On Open-sourcing LLMs”. X (formerly Twitter).
↑ 《GPT-4 Technical Report》。OpenAI。[2]
↑ 《DeepSeek-V2 and DeepSeek-Coder-V2 Technical Report》。
↑ 《Anthropic's Responsible Scaling Policy》。Anthropic。
↑ 《Dual-Use Foundation Models with Widely Available Model Weights》。U.S. Department of Commerce, NTIA。(2024)。

[stanford_index_2025-1] 1.0 ^1.1 《Artificial Intelligence Index Report 2025》。Stanford University HAI。[1] 检索于2025年7月4日。

[karpathy_def-2] Karpathy, Andrej. “On Open-sourcing LLMs”. X (formerly Twitter).

[gpt4_report-3] 《GPT-4 Technical Report》。OpenAI。[2]

[deepseek_v3-4] 《DeepSeek-V2 and DeepSeek-Coder-V2 Technical Report》。

[anthropic_rsp-5] 《Anthropic's Responsible Scaling Policy》。Anthropic。

[ntia_report-6] 《Dual-Use Foundation Models with Widely Available Model Weights》。U.S. Department of Commerce, NTIA。(2024)。

[1]

[2]

[3]

[4]

[5]

[6]

Open-weight and closed-weight models — 开放权重与封闭权重模型

Contents

定义与主要区别

Open-weight 模型（开放权重）

Closed-weight 模型（封闭权重）

与开源（Open-source）的区别

对比分析：性能、成本与创新

性能与定制化

经济方面

对科学研究与创新的影响

安全与伦理困境

监管方法：欧盟与美国

关键模型与参与者

链接

参考文献

注释

Navigation menu

Open-weight and closed-weight models — 开放权重与封闭权重模型

定义与主要区别

Open-weight 模型（开放权重）

Closed-weight 模型（封闭权重）

与开源（Open-source）的区别

对比分析：性能、成本与创新

性能与定制化

经济方面

对科学研究与创新的影响

安全与伦理困境

监管方法：欧盟与美国

关键模型与参与者

链接

参考文献

注释

Navigation menu

Search