Qwen (Alibaba) — 通义千问

From Systems analysis wiki
Jump to navigation Jump to search

Qwen(中文名:通义千问)是由阿里巴巴集团的云计算部门阿里云[1]开发的大语言模型(LLM)家族。Qwen模型是中国科技巨头在人工智能领域的一项重大贡献。其首个版本于2023年4月以测试版形式推出,并于2023年9月公开发布[1]

Qwen家族经历了快速演进,向市场提供了开源解决方案和功能更强大的专有版本。Qwen的关键特性包括模型尺寸范围广(从数亿到数千亿参数)、先进的多模态能力(处理文本、图像、音频和视频)、支持多种语言,以及创新的架构设计,如专家混合(MoE)和用于解决复杂任务的“思考”模式[2]

在全球市场上,Qwen被定位为OpenAI、Meta、Anthropic和Mistral AI等领先模型的重要竞争者。阿里云的战略重点是高性能与高可用性,这体现在其定期发布开源模型上,且主要采用Apache 2.0许可证[3]

历史与发展

Qwen家族的发展以快节奏和战略性决策为特点,同时面向开源社区和商业用户。从最初接近LLaMA的架构,阿里云逐步转向创建自己独特的解决方案,包括复杂的MoE架构和先进的多模态系统。

Qwen模型主要发布版本
发布日期 模型 参数(十亿) 主要特点 许可证
2023年8月 Qwen-7B 7 首个开源模型;在约2.4万亿个词元上进行预训练;32k词元上下文窗口[4] 通义千问许可证(商业用途需授权)[5]
2023年9月 Qwen-14B 14 在约3.0万亿个词元上进行训练;提升了复杂任务的准确性;上下文窗口为8k[6] 通义千问许可证
2023年11月 Qwen-72B 72 旗舰模型,在约3.0万亿个词元上进行训练;32k上下文;性能达到当时顶级模型水平。 通义千问许可证
2023年11月 Qwen-1.8B 1.8 用于本地部署的紧凑型模型;在约2.2万亿个词元上进行预训练;32k上下文。 通义千问许可证
2024年6月/9月 Qwen 2 0.5–72 第二代模型;在约7万亿个词元上进行训练;引入了MoE模型(如57B-A14B);通过YaRN技术将上下文扩展至128k[7] Apache 2.0(多数模型)
2024年9月 Qwen 2.5 3–32 中期更新;数据集扩展至约18万亿个词元;提升了代码和数学问题的解决能力[8] Apache 2.0(72B除外)
2024年11月 QwQ-32B (Preview) 32 “Qwen with Questions”实验模型,用于复杂的逐步推理;32k上下文。 Apache 2.0(仅权重)
2025年1月 Qwen2.5-VL 3–72 多模态模型(文本+图像);分析任意分辨率的图像;上下文最高达128k[9] Apache 2.0(72B除外)
2025年3月 Qwen2.5-Omni-7B 7 通用多模态模型:输入(文本、图像、视频、音频),输出(文本、语音)。采用“思考者-说话者”(Thinker-Talker)架构[10] Apache 2.0
2025年4月 Qwen 3 0.6–235 (MoE) 第三代模型;在约36万亿个词元上进行训练,涵盖119种语言;MoE版本(30B-A3B, 235B-A22B);内置“思维外化”(think aloud)模式 (<think>);128k上下文[11] Apache 2.0(所有模型)

架构与技术特点

Qwen模型基于“仅解码器”(decoder-only)的Transformer架构,类似于LLaMA和GPT。每个模型都是一个自回归解码器,包含多头注意力机制和前馈网络模块。

关键架构组件

  • 基本元素:Qwen采用了现代LLM的标准解决方案:使用RMSNorm归一化以确保训练稳定性,并在全连接层中使用SwiGLU激活函数以提升性能[4]
  • 位置编码:使用旋转位置编码(Rotary Positional Embeddings, RoPE)来编码词元的位置信息,从而有效处理长序列[8]
  • 高效注意力机制:为加速计算和节省内存,在注意力机制中采用了FlashAttention算法[2]

密集模型与专家混合(MoE)模型

Qwen家族包括两种架构类型的模型:

  • 密集模型(Dense):在处理每个词元时,模型的所有参数都会被激活。例如:Qwen-72B、Qwen2.5-32B。这类模型部署简单,但随着规模增大需要更多的计算资源[11]
  • 专家混合(Mixture-of-Experts, MoE)模型:在这类模型中,一个大型全连接层被替换为多个较小的、专门化的“专家”层。对于每个词元,一个特殊的门控网络(gating network)会动态选择一小部分专家进行处理。这使得模型可以在推理阶段以显著降低的计算成本,拥有巨大的总参数量。
    • Qwen2-57B-A14B 包含570亿总参数,但每次请求只激活140亿参数[7]
    • Qwen3-235B-A22B 包含2350亿总参数,其中220亿为活跃参数[11]

长上下文创新

长上下文支持是Qwen的强项之一。

  • 首批模型支持最多32k个词元。
  • Qwen 2代中,通过YaRN(Yet Another RoPE Extension)方法将上下文窗口扩展至128k个词元,该方法可以在不显著降低质量的情况下扩展上下文[7]
  • 实验性模型Qwen2.5-Turbo展示了处理高达100万个词元上下文的能力[2]

Qwen 3的“思考模式”

Qwen第三代实现了“混合思维”(hybrid thinking)机制。模型可以在给出最终答案前,明确地形成一条推理链(chain-of-thought)。

  • 默认情况下,Qwen 3会在输出中嵌入一个特殊的<think>...</think>块,其中展示了逐步的逻辑推理过程。
  • 用户可以在请求中添加/no_think指令来禁用此模式。

这一机制提升了模型解决需要多步推理的复杂任务的能力[3]

多语言分词器

Qwen使用了扩展的词元词汇表(约151,000个词元),该词汇表基于OpenAI GPT-4的BPE词汇表(cl100k)构建,并针对中文及其他语言进行了额外优化。这使得模型能够高效地编码汉字、拉丁字母和程序代码,从而提升其多语言能力[4]

多模态能力

Qwen家族在多模态方向上积极发展,推出了能够处理不同类型数据的模型:

  • Qwen-VL:将视觉Transformer(用于处理图像)与语言模型相结合,使其能够回答关于图像的问题并生成描述。Qwen2.5-VL版本能够分析任意分辨率的图像,并从中提取结构化数据(例如,从表格和表单中)[9]
  • Qwen-Audio:专门用于处理音频信息的模型,能够识别和生成语音、音乐及其他声音[12]
  • Qwen2.5-Omni:通用的端到端多模态模型,能同时感知文本、图像、音频和视频,并以流式方式生成文本或自然语音的回复。其核心是“思考者-说话者”(Thinker-Talker)架构,其中“思考者”(LLM)生成文本内容,而“说话者”(双轨自回归模型)合成音频[10]
  • 专用模型:还发布了针对特定任务的模型,如Qwen-Coder(编程)和Qwen-Math(解决数学问题)。

训练数据与规模

Qwen模型在极其庞大的数据语料上进行训练,这些数据包括来自互联网的文本、书籍、科学文章、程序代码和数学数据。

  • Qwen 1.0 (7B):约2.4万亿词元。
  • Qwen 1.0 (72B):约3.0万亿词元。
  • Qwen 2.0:约7万亿词元。
  • Qwen 2.5:约18万亿词元。
  • Qwen 3.0:约36万亿词元,涵盖119种语言和方言。

为了提高数据质量,采用了先进的过滤方法,并生成高质量的合成数据,特别是在数学和编程等领域[8]

许可与可用性

Qwen模型的许可政策随时间演变。

  • 早期模型(Qwen 1):采用自有的通义千问许可证(Tongyi Qianwen License)分发。该许可证允许学术使用,但商业应用需提交申请并获得单独授权[5]
  • 后期模型(Qwen 2, 2.5, 3):从第二代开始,开发者转向了更开放的政策。大多数新模型都以宽松的Apache 2.0许可证发布,允许在学术和商业项目中自由使用[7]。随着Qwen 3系列的发布,该代所有模型都完全开放,采用Apache 2.0许可证,无额外限制[3]
  • 专有和受限模型:尽管总体趋势是开放,但最大或具有战略重要性的模型(如Qwen2.5-Max、Qwen2.5-VL-72B)仍然是专有模型,通过阿里云的付费API提供,或在更严格的研究许可下分发。

与竞争对手的比较及性能表现

Qwen模型在竞争激烈的市场中积极定位,并定期与世界领先公司的产品进行比较。

  • vs. Llama (Meta):在技术报告中,Qwen通常表现出优于同等规模Llama模型的性能。例如,Qwen2-72B在MMLU、HumanEval和GSM8K等基准测试中的得分高于Llama-3-70B。
  • vs. GPT (OpenAI):Qwen的旗舰模型致力于缩小与GPT模型的差距。阿里云声称,Qwen2.5-Max在某些学术基准测试上优于GPT-4o,而Qwen2-72B-Instruct则展现出与GPT-4-Turbo相当的竞争力。
  • vs. Mistral AI:两家公司都侧重于开源模型。测试表明,Qwen2-72B在关键基准测试上的表现优于Mixtral-8x22B[7]

基准测试结果

Qwen旗舰模型与竞争对手的性能比较(数据截至2024年中)[7]
模型 MMLU (5-shot) HumanEval (0-shot) GSM8K (8-shot) MT-Bench
Qwen2-72B (基础) 84.2 64.6 89.5 不适用
Qwen2-72B-Instruct 82.3 86.0 93.2 9.12
Llama-3-70B (基础) 79.5 48.2 83.0 不适用
Llama-3-70B-Instruct 82.0 81.7 93.0 8.95
Mixtral-8x22B (基础) 77.8 46.3 83.7 不适用
Mixtral-8x22B-Instruct 74.0 73.8 89.1 8.66

注:不适用——表示不适用或在引用来源中无相关数据。

生态系统与应用

Qwen家族被集成到各种产品和平台中,形成了一个不断发展的生态系统。

  • 阿里云平台:模型(特别是功能最强大的专有版本)通过模型工作室(Model Studio)的API接口提供。PAI-EAS(人工智能平台-弹性算法服务)平台支持Qwen模型的部署、微调(fine-tuning)和定制。
  • 开源社区:模型的开源版本、权重和代码被积极托管在Hugging FaceModelScopeGitHub等平台上[6],这促进了它们在全球研究人员和开发者中的广泛传播和使用。
  • 应用:这些模型被用于从内容生成和数据分析到创建AI智能体的广泛任务。例如,Qwen3模型支持模型上下文协议(Model Context Protocol, MCP),使其能够更有效地与其他应用程序和工具交互。

参考文献

外部链接

参考文献

  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  • Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  • Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
  • Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  • Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
  • Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
  • Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

注释

  1. 1.0 1.1 “Qwen”. Wikipedia. [1]
  2. 2.0 2.1 2.2 “Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond”. Inferless. [2]
  3. 3.0 3.1 3.2 “Qwen 3 offers a case study in how to effectively release a model”. Simon Willison's Weblog. [3]
  4. 4.0 4.1 4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  5. 5.0 5.1 “Qwen/Qwen-7B”. Hugging Face. [4]
  6. 6.0 6.1 “GitHub - QwenLM/Qwen: The official repo of Qwen”. GitHub. [5]
  7. 7.0 7.1 7.2 7.3 7.4 7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  8. 8.0 8.1 8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  9. 9.0 9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
  10. 10.0 10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
  11. 11.0 11.1 11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
  12. Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.