Qwen (Alibaba) — 通义千问

Qwen（中文名：通义千问）是由阿里巴巴集团的云计算部门阿里云^[1]开发的大语言模型（LLM）家族。Qwen模型是中国科技巨头在人工智能领域的一项重大贡献。其首个版本于2023年4月以测试版形式推出，并于2023年9月公开发布^[1]。

Qwen家族经历了快速演进，向市场提供了开源解决方案和功能更强大的专有版本。Qwen的关键特性包括模型尺寸范围广（从数亿到数千亿参数）、先进的多模态能力（处理文本、图像、音频和视频）、支持多种语言，以及创新的架构设计，如专家混合（MoE）和用于解决复杂任务的“思考”模式^[2]。

在全球市场上，Qwen被定位为OpenAI、Meta、Anthropic和Mistral AI等领先模型的重要竞争者。阿里云的战略重点是高性能与高可用性，这体现在其定期发布开源模型上，且主要采用Apache 2.0许可证^[3]。

历史与发展

Qwen家族的发展以快节奏和战略性决策为特点，同时面向开源社区和商业用户。从最初接近LLaMA的架构，阿里云逐步转向创建自己独特的解决方案，包括复杂的MoE架构和先进的多模态系统。

Qwen模型主要发布版本
发布日期	模型	参数（十亿）	主要特点	许可证
2023年8月	Qwen-7B	7	首个开源模型；在约2.4万亿个词元上进行预训练；32k词元上下文窗口^[4]。	通义千问许可证（商业用途需授权）^[5]
2023年9月	Qwen-14B	14	在约3.0万亿个词元上进行训练；提升了复杂任务的准确性；上下文窗口为8k^[6]。	通义千问许可证
2023年11月	Qwen-72B	72	旗舰模型，在约3.0万亿个词元上进行训练；32k上下文；性能达到当时顶级模型水平。	通义千问许可证
2023年11月	Qwen-1.8B	1.8	用于本地部署的紧凑型模型；在约2.2万亿个词元上进行预训练；32k上下文。	通义千问许可证
2024年6月/9月	Qwen 2	0.5–72	第二代模型；在约7万亿个词元上进行训练；引入了MoE模型（如57B-A14B）；通过YaRN技术将上下文扩展至128k^[7]。	Apache 2.0（多数模型）
2024年9月	Qwen 2.5	3–32	中期更新；数据集扩展至约18万亿个词元；提升了代码和数学问题的解决能力^[8]。	Apache 2.0（72B除外）
2024年11月	QwQ-32B (Preview)	32	“Qwen with Questions”实验模型，用于复杂的逐步推理；32k上下文。	Apache 2.0（仅权重）
2025年1月	Qwen2.5-VL	3–72	多模态模型（文本+图像）；分析任意分辨率的图像；上下文最高达128k^[9]。	Apache 2.0（72B除外）
2025年3月	Qwen2.5-Omni-7B	7	通用多模态模型：输入（文本、图像、视频、音频），输出（文本、语音）。采用“思考者-说话者”（Thinker-Talker）架构^[10]。	Apache 2.0
2025年4月	Qwen 3	0.6–235 (MoE)	第三代模型；在约36万亿个词元上进行训练，涵盖119种语言；MoE版本（30B-A3B, 235B-A22B）；内置“思维外化”（think aloud）模式 (`<think>`)；128k上下文^[11]。	Apache 2.0（所有模型）

架构与技术特点

Qwen模型基于“仅解码器”（decoder-only）的Transformer架构，类似于LLaMA和GPT。每个模型都是一个自回归解码器，包含多头注意力机制和前馈网络模块。

关键架构组件

基本元素：Qwen采用了现代LLM的标准解决方案：使用RMSNorm归一化以确保训练稳定性，并在全连接层中使用SwiGLU激活函数以提升性能^[4]。
位置编码：使用旋转位置编码（Rotary Positional Embeddings, RoPE）来编码词元的位置信息，从而有效处理长序列^[8]。
高效注意力机制：为加速计算和节省内存，在注意力机制中采用了FlashAttention算法^[2]。

密集模型与专家混合（MoE）模型

Qwen家族包括两种架构类型的模型：

密集模型（Dense）：在处理每个词元时，模型的所有参数都会被激活。例如：Qwen-72B、Qwen2.5-32B。这类模型部署简单，但随着规模增大需要更多的计算资源^[11]。
专家混合（Mixture-of-Experts, MoE）模型：在这类模型中，一个大型全连接层被替换为多个较小的、专门化的“专家”层。对于每个词元，一个特殊的门控网络（gating network）会动态选择一小部分专家进行处理。这使得模型可以在推理阶段以显著降低的计算成本，拥有巨大的总参数量。
- Qwen2-57B-A14B 包含570亿总参数，但每次请求只激活140亿参数^[7]。
- Qwen3-235B-A22B 包含2350亿总参数，其中220亿为活跃参数^[11]。

长上下文创新

长上下文支持是Qwen的强项之一。

首批模型支持最多32k个词元。
在Qwen 2代中，通过YaRN（Yet Another RoPE Extension）方法将上下文窗口扩展至128k个词元，该方法可以在不显著降低质量的情况下扩展上下文^[7]。
实验性模型Qwen2.5-Turbo展示了处理高达100万个词元上下文的能力^[2]。

Qwen 3的“思考模式”

Qwen第三代实现了“混合思维”（hybrid thinking）机制。模型可以在给出最终答案前，明确地形成一条推理链（chain-of-thought）。

默认情况下，Qwen 3会在输出中嵌入一个特殊的<think>...</think>块，其中展示了逐步的逻辑推理过程。
用户可以在请求中添加/no_think指令来禁用此模式。

这一机制提升了模型解决需要多步推理的复杂任务的能力^[3]。

多语言分词器

Qwen使用了扩展的词元词汇表（约151,000个词元），该词汇表基于OpenAI GPT-4的BPE词汇表（cl100k）构建，并针对中文及其他语言进行了额外优化。这使得模型能够高效地编码汉字、拉丁字母和程序代码，从而提升其多语言能力^[4]。

多模态能力

Qwen家族在多模态方向上积极发展，推出了能够处理不同类型数据的模型：

Qwen-VL：将视觉Transformer（用于处理图像）与语言模型相结合，使其能够回答关于图像的问题并生成描述。Qwen2.5-VL版本能够分析任意分辨率的图像，并从中提取结构化数据（例如，从表格和表单中）^[9]。
Qwen-Audio：专门用于处理音频信息的模型，能够识别和生成语音、音乐及其他声音^[12]。
Qwen2.5-Omni：通用的端到端多模态模型，能同时感知文本、图像、音频和视频，并以流式方式生成文本或自然语音的回复。其核心是“思考者-说话者”（Thinker-Talker）架构，其中“思考者”（LLM）生成文本内容，而“说话者”（双轨自回归模型）合成音频^[10]。
专用模型：还发布了针对特定任务的模型，如Qwen-Coder（编程）和Qwen-Math（解决数学问题）。

训练数据与规模

Qwen模型在极其庞大的数据语料上进行训练，这些数据包括来自互联网的文本、书籍、科学文章、程序代码和数学数据。

Qwen 1.0 (7B)：约2.4万亿词元。
Qwen 1.0 (72B)：约3.0万亿词元。
Qwen 2.0：约7万亿词元。
Qwen 2.5：约18万亿词元。
Qwen 3.0：约36万亿词元，涵盖119种语言和方言。

为了提高数据质量，采用了先进的过滤方法，并生成高质量的合成数据，特别是在数学和编程等领域^[8]。

许可与可用性

Qwen模型的许可政策随时间演变。

早期模型（Qwen 1）：采用自有的通义千问许可证（Tongyi Qianwen License）分发。该许可证允许学术使用，但商业应用需提交申请并获得单独授权^[5]。
后期模型（Qwen 2, 2.5, 3）：从第二代开始，开发者转向了更开放的政策。大多数新模型都以宽松的Apache 2.0许可证发布，允许在学术和商业项目中自由使用^[7]。随着Qwen 3系列的发布，该代所有模型都完全开放，采用Apache 2.0许可证，无额外限制^[3]。
专有和受限模型：尽管总体趋势是开放，但最大或具有战略重要性的模型（如Qwen2.5-Max、Qwen2.5-VL-72B）仍然是专有模型，通过阿里云的付费API提供，或在更严格的研究许可下分发。

与竞争对手的比较及性能表现

Qwen模型在竞争激烈的市场中积极定位，并定期与世界领先公司的产品进行比较。

vs. Llama (Meta)：在技术报告中，Qwen通常表现出优于同等规模Llama模型的性能。例如，Qwen2-72B在MMLU、HumanEval和GSM8K等基准测试中的得分高于Llama-3-70B。
vs. GPT (OpenAI)：Qwen的旗舰模型致力于缩小与GPT模型的差距。阿里云声称，Qwen2.5-Max在某些学术基准测试上优于GPT-4o，而Qwen2-72B-Instruct则展现出与GPT-4-Turbo相当的竞争力。
vs. Mistral AI：两家公司都侧重于开源模型。测试表明，Qwen2-72B在关键基准测试上的表现优于Mixtral-8x22B^[7]。

基准测试结果

Qwen旗舰模型与竞争对手的性能比较（数据截至2024年中）^[7]
模型	MMLU (5-shot)	HumanEval (0-shot)	GSM8K (8-shot)	MT-Bench
Qwen2-72B (基础)	84.2	64.6	89.5	不适用
Qwen2-72B-Instruct	82.3	86.0	93.2	9.12
Llama-3-70B (基础)	79.5	48.2	83.0	不适用
Llama-3-70B-Instruct	82.0	81.7	93.0	8.95
Mixtral-8x22B (基础)	77.8	46.3	83.7	不适用
Mixtral-8x22B-Instruct	74.0	73.8	89.1	8.66

注：不适用——表示不适用或在引用来源中无相关数据。

生态系统与应用

Qwen家族被集成到各种产品和平台中，形成了一个不断发展的生态系统。

阿里云平台：模型（特别是功能最强大的专有版本）通过模型工作室（Model Studio）的API接口提供。PAI-EAS（人工智能平台-弹性算法服务）平台支持Qwen模型的部署、微调（fine-tuning）和定制。
开源社区：模型的开源版本、权重和代码被积极托管在Hugging Face、ModelScope和GitHub等平台上^[6]，这促进了它们在全球研究人员和开发者中的广泛传播和使用。
应用：这些模型被用于从内容生成和数据分析到创建AI智能体的广泛任务。例如，Qwen3模型支持模型上下文协议（Model Context Protocol, MCP），使其能够更有效地与其他应用程序和工具交互。

参考文献

Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.

外部链接

参考文献

Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

注释

↑ ^1.0 ^1.1 “Qwen”. Wikipedia. [1]
↑ ^2.0 ^2.1 ^2.2 “Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond”. Inferless. [2]
↑ ^3.0 ^3.1 ^3.2 “Qwen 3 offers a case study in how to effectively release a model”. Simon Willison's Weblog. [3]
↑ ^4.0 ^4.1 ^4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
↑ ^5.0 ^5.1 “Qwen/Qwen-7B”. Hugging Face. [4]
↑ ^6.0 ^6.1 “GitHub - QwenLM/Qwen: The official repo of Qwen”. GitHub. [5]
↑ ^7.0 ^7.1 ^7.2 ^7.3 ^7.4 ^7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
↑ ^8.0 ^8.1 ^8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
↑ ^9.0 ^9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
↑ ^10.0 ^10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
↑ ^11.0 ^11.1 ^11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.

[wikipedia-qwen-1] 1.0 ^1.1 “Qwen”. Wikipedia. [1]

[inferless-guide-2] 2.0 ^2.1 ^2.2 “Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond”. Inferless. [2]

[qwen3-release-analysis-3] 3.0 ^3.1 ^3.2 “Qwen 3 offers a case study in how to effectively release a model”. Simon Willison's Weblog. [3]

[qwen1-tech-report-4] 4.0 ^4.1 ^4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.

[qwen7b-hf-5] 5.0 ^5.1 “Qwen/Qwen-7B”. Hugging Face. [4]

[github-qwenlm-6] 6.0 ^6.1 “GitHub - QwenLM/Qwen: The official repo of Qwen”. GitHub. [5]

[qwen2-tech-report-7] 7.0 ^7.1 ^7.2 ^7.3 ^7.4 ^7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.

[qwen2.5-tech-report-8] 8.0 ^8.1 ^8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.

[qwen2.5-vl-tech-report-9] 9.0 ^9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.

[qwen2.5-omni-tech-report-10] 10.0 ^10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.

[qwen3-tech-report-11] 11.0 ^11.1 ^11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

[12] Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Qwen (Alibaba) — 通义千问

Contents

历史与发展

架构与技术特点

关键架构组件

密集模型与专家混合（MoE）模型

长上下文创新

Qwen 3的“思考模式”

多语言分词器

多模态能力

训练数据与规模

许可与可用性

与竞争对手的比较及性能表现

基准测试结果

生态系统与应用

参考文献

外部链接

参考文献

注释

Navigation menu

Qwen (Alibaba) — 通义千问

历史与发展

架构与技术特点

关键架构组件

密集模型与专家混合（MoE）模型

长上下文创新

Qwen 3的“思考模式”

多语言分词器

多模态能力

训练数据与规模

许可与可用性

与竞争对手的比较及性能表现

基准测试结果

生态系统与应用

参考文献

外部链接

参考文献

注释

Navigation menu

Search