Qwen (Alibaba) — 通义千问
Qwen(中文名:通义千问)是由阿里巴巴集团的云计算部门阿里云[1]开发的大语言模型(LLM)家族。Qwen模型是中国科技巨头在人工智能领域的一项重大贡献。其首个版本于2023年4月以测试版形式推出,并于2023年9月公开发布[1]。
Qwen家族经历了快速演进,向市场提供了开源解决方案和功能更强大的专有版本。Qwen的关键特性包括模型尺寸范围广(从数亿到数千亿参数)、先进的多模态能力(处理文本、图像、音频和视频)、支持多种语言,以及创新的架构设计,如专家混合(MoE)和用于解决复杂任务的“思考”模式[2]。
在全球市场上,Qwen被定位为OpenAI、Meta、Anthropic和Mistral AI等领先模型的重要竞争者。阿里云的战略重点是高性能与高可用性,这体现在其定期发布开源模型上,且主要采用Apache 2.0许可证[3]。
历史与发展
Qwen家族的发展以快节奏和战略性决策为特点,同时面向开源社区和商业用户。从最初接近LLaMA的架构,阿里云逐步转向创建自己独特的解决方案,包括复杂的MoE架构和先进的多模态系统。
| 发布日期 | 模型 | 参数(十亿) | 主要特点 | 许可证 |
|---|---|---|---|---|
| 2023年8月 | Qwen-7B | 7 | 首个开源模型;在约2.4万亿个词元上进行预训练;32k词元上下文窗口[4]。 | 通义千问许可证(商业用途需授权)[5] |
| 2023年9月 | Qwen-14B | 14 | 在约3.0万亿个词元上进行训练;提升了复杂任务的准确性;上下文窗口为8k[6]。 | 通义千问许可证 |
| 2023年11月 | Qwen-72B | 72 | 旗舰模型,在约3.0万亿个词元上进行训练;32k上下文;性能达到当时顶级模型水平。 | 通义千问许可证 |
| 2023年11月 | Qwen-1.8B | 1.8 | 用于本地部署的紧凑型模型;在约2.2万亿个词元上进行预训练;32k上下文。 | 通义千问许可证 |
| 2024年6月/9月 | Qwen 2 | 0.5–72 | 第二代模型;在约7万亿个词元上进行训练;引入了MoE模型(如57B-A14B);通过YaRN技术将上下文扩展至128k[7]。 | Apache 2.0(多数模型) |
| 2024年9月 | Qwen 2.5 | 3–32 | 中期更新;数据集扩展至约18万亿个词元;提升了代码和数学问题的解决能力[8]。 | Apache 2.0(72B除外) |
| 2024年11月 | QwQ-32B (Preview) | 32 | “Qwen with Questions”实验模型,用于复杂的逐步推理;32k上下文。 | Apache 2.0(仅权重) |
| 2025年1月 | Qwen2.5-VL | 3–72 | 多模态模型(文本+图像);分析任意分辨率的图像;上下文最高达128k[9]。 | Apache 2.0(72B除外) |
| 2025年3月 | Qwen2.5-Omni-7B | 7 | 通用多模态模型:输入(文本、图像、视频、音频),输出(文本、语音)。采用“思考者-说话者”(Thinker-Talker)架构[10]。 | Apache 2.0 |
| 2025年4月 | Qwen 3 | 0.6–235 (MoE) | 第三代模型;在约36万亿个词元上进行训练,涵盖119种语言;MoE版本(30B-A3B, 235B-A22B);内置“思维外化”(think aloud)模式 (<think>);128k上下文[11]。
|
Apache 2.0(所有模型) |
架构与技术特点
Qwen模型基于“仅解码器”(decoder-only)的Transformer架构,类似于LLaMA和GPT。每个模型都是一个自回归解码器,包含多头注意力机制和前馈网络模块。
关键架构组件
- 基本元素:Qwen采用了现代LLM的标准解决方案:使用RMSNorm归一化以确保训练稳定性,并在全连接层中使用SwiGLU激活函数以提升性能[4]。
- 位置编码:使用旋转位置编码(Rotary Positional Embeddings, RoPE)来编码词元的位置信息,从而有效处理长序列[8]。
- 高效注意力机制:为加速计算和节省内存,在注意力机制中采用了FlashAttention算法[2]。
密集模型与专家混合(MoE)模型
Qwen家族包括两种架构类型的模型:
- 密集模型(Dense):在处理每个词元时,模型的所有参数都会被激活。例如:Qwen-72B、Qwen2.5-32B。这类模型部署简单,但随着规模增大需要更多的计算资源[11]。
- 专家混合(Mixture-of-Experts, MoE)模型:在这类模型中,一个大型全连接层被替换为多个较小的、专门化的“专家”层。对于每个词元,一个特殊的门控网络(gating network)会动态选择一小部分专家进行处理。这使得模型可以在推理阶段以显著降低的计算成本,拥有巨大的总参数量。
长上下文创新
长上下文支持是Qwen的强项之一。
- 首批模型支持最多32k个词元。
- 在Qwen 2代中,通过YaRN(Yet Another RoPE Extension)方法将上下文窗口扩展至128k个词元,该方法可以在不显著降低质量的情况下扩展上下文[7]。
- 实验性模型Qwen2.5-Turbo展示了处理高达100万个词元上下文的能力[2]。
Qwen 3的“思考模式”
Qwen第三代实现了“混合思维”(hybrid thinking)机制。模型可以在给出最终答案前,明确地形成一条推理链(chain-of-thought)。
- 默认情况下,Qwen 3会在输出中嵌入一个特殊的
<think>...</think>块,其中展示了逐步的逻辑推理过程。 - 用户可以在请求中添加
/no_think指令来禁用此模式。
这一机制提升了模型解决需要多步推理的复杂任务的能力[3]。
多语言分词器
Qwen使用了扩展的词元词汇表(约151,000个词元),该词汇表基于OpenAI GPT-4的BPE词汇表(cl100k)构建,并针对中文及其他语言进行了额外优化。这使得模型能够高效地编码汉字、拉丁字母和程序代码,从而提升其多语言能力[4]。
多模态能力
Qwen家族在多模态方向上积极发展,推出了能够处理不同类型数据的模型:
- Qwen-VL:将视觉Transformer(用于处理图像)与语言模型相结合,使其能够回答关于图像的问题并生成描述。Qwen2.5-VL版本能够分析任意分辨率的图像,并从中提取结构化数据(例如,从表格和表单中)[9]。
- Qwen-Audio:专门用于处理音频信息的模型,能够识别和生成语音、音乐及其他声音[12]。
- Qwen2.5-Omni:通用的端到端多模态模型,能同时感知文本、图像、音频和视频,并以流式方式生成文本或自然语音的回复。其核心是“思考者-说话者”(Thinker-Talker)架构,其中“思考者”(LLM)生成文本内容,而“说话者”(双轨自回归模型)合成音频[10]。
- 专用模型:还发布了针对特定任务的模型,如Qwen-Coder(编程)和Qwen-Math(解决数学问题)。
训练数据与规模
Qwen模型在极其庞大的数据语料上进行训练,这些数据包括来自互联网的文本、书籍、科学文章、程序代码和数学数据。
- Qwen 1.0 (7B):约2.4万亿词元。
- Qwen 1.0 (72B):约3.0万亿词元。
- Qwen 2.0:约7万亿词元。
- Qwen 2.5:约18万亿词元。
- Qwen 3.0:约36万亿词元,涵盖119种语言和方言。
为了提高数据质量,采用了先进的过滤方法,并生成高质量的合成数据,特别是在数学和编程等领域[8]。
许可与可用性
Qwen模型的许可政策随时间演变。
- 早期模型(Qwen 1):采用自有的通义千问许可证(Tongyi Qianwen License)分发。该许可证允许学术使用,但商业应用需提交申请并获得单独授权[5]。
- 后期模型(Qwen 2, 2.5, 3):从第二代开始,开发者转向了更开放的政策。大多数新模型都以宽松的Apache 2.0许可证发布,允许在学术和商业项目中自由使用[7]。随着Qwen 3系列的发布,该代所有模型都完全开放,采用Apache 2.0许可证,无额外限制[3]。
- 专有和受限模型:尽管总体趋势是开放,但最大或具有战略重要性的模型(如Qwen2.5-Max、Qwen2.5-VL-72B)仍然是专有模型,通过阿里云的付费API提供,或在更严格的研究许可下分发。
与竞争对手的比较及性能表现
Qwen模型在竞争激烈的市场中积极定位,并定期与世界领先公司的产品进行比较。
- vs. Llama (Meta):在技术报告中,Qwen通常表现出优于同等规模Llama模型的性能。例如,Qwen2-72B在MMLU、HumanEval和GSM8K等基准测试中的得分高于Llama-3-70B。
- vs. GPT (OpenAI):Qwen的旗舰模型致力于缩小与GPT模型的差距。阿里云声称,Qwen2.5-Max在某些学术基准测试上优于GPT-4o,而Qwen2-72B-Instruct则展现出与GPT-4-Turbo相当的竞争力。
- vs. Mistral AI:两家公司都侧重于开源模型。测试表明,Qwen2-72B在关键基准测试上的表现优于Mixtral-8x22B[7]。
基准测试结果
| 模型 | MMLU (5-shot) | HumanEval (0-shot) | GSM8K (8-shot) | MT-Bench |
|---|---|---|---|---|
| Qwen2-72B (基础) | 84.2 | 64.6 | 89.5 | 不适用 |
| Qwen2-72B-Instruct | 82.3 | 86.0 | 93.2 | 9.12 |
| Llama-3-70B (基础) | 79.5 | 48.2 | 83.0 | 不适用 |
| Llama-3-70B-Instruct | 82.0 | 81.7 | 93.0 | 8.95 |
| Mixtral-8x22B (基础) | 77.8 | 46.3 | 83.7 | 不适用 |
| Mixtral-8x22B-Instruct | 74.0 | 73.8 | 89.1 | 8.66 |
注:不适用——表示不适用或在引用来源中无相关数据。
生态系统与应用
Qwen家族被集成到各种产品和平台中,形成了一个不断发展的生态系统。
- 阿里云平台:模型(特别是功能最强大的专有版本)通过模型工作室(Model Studio)的API接口提供。PAI-EAS(人工智能平台-弹性算法服务)平台支持Qwen模型的部署、微调(fine-tuning)和定制。
- 开源社区:模型的开源版本、权重和代码被积极托管在Hugging Face、ModelScope和GitHub等平台上[6],这促进了它们在全球研究人员和开发者中的广泛传播和使用。
- 应用:这些模型被用于从内容生成和数据分析到创建AI智能体的广泛任务。例如,Qwen3模型支持模型上下文协议(Model Context Protocol, MCP),使其能够更有效地与其他应用程序和工具交互。
参考文献
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
外部链接
参考文献
- Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
注释
- ↑ 1.0 1.1 “Qwen”. Wikipedia. [1]
- ↑ 2.0 2.1 2.2 “Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond”. Inferless. [2]
- ↑ 3.0 3.1 3.2 “Qwen 3 offers a case study in how to effectively release a model”. Simon Willison's Weblog. [3]
- ↑ 4.0 4.1 4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- ↑ 5.0 5.1 “Qwen/Qwen-7B”. Hugging Face. [4]
- ↑ 6.0 6.1 “GitHub - QwenLM/Qwen: The official repo of Qwen”. GitHub. [5]
- ↑ 7.0 7.1 7.2 7.3 7.4 7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- ↑ 8.0 8.1 8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- ↑ 9.0 9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- ↑ 10.0 10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
- ↑ 11.0 11.1 11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- ↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.