Mixtral (Mistral AI) — Mixtral(Mistral AI 的专家混合模型)
Mixtral 8x7B 是一款由法国公司 Mistral AI 开发的开源大语言模型 (LLM),于2023年12月发布。该模型基于稀疏专家混合 (Sparse Mixture of Experts, SMoE) 架构,这使其能够在性能上与 Llama 2 70B 和 GPT-3.5 等更大规模的模型相媲美的同时,保持极高的推理速度和效率[1]。
该模型根据宽松的 Apache 2.0 许可证分发,可用于学术和商业用途。Mixtral 8x7B 在多语言任务、代码生成和指令遵循方面表现出色,使其成为发布时最受欢迎的开源模型之一[2]。
开发历史
Mistral AI 公司由来自 Meta 和 Google 的前研究人员于2023年4月创立。2023年9月,该公司发布了其首个模型 Mistral 7B,该模型因其小尺寸和高效率而备受赞誉。
2023年12月11日,Mistral AI 宣布推出其首个基于专家混合架构的模型 Mixtral 8x7B。该模型立即引起了社区的关注,被认为是当时最强大的开源 LLM,其性能与 GPT-3.5 相当,但推理速度显著提高。2024年1月,该模型的详细技术描述以科学论文的形式在 arXiv 上发表,使独立研究人员能够了解其架构细节和测试结果[2]。
架构:稀疏专家混合 (SMoE)
Mixtral 8x7B 的主要创新是引入了 Sparse Mixture of Experts 架构。与标准的“密集”Transformer 模型不同(每个层对所有 token 执行相同的计算),在 Mixtral 中,每个层都包含多个并行的“专家”块。
架构的主要特点:
- MoE 结构:每个 Transformer 层包含 8 个前馈网络块(“专家”)。对于每个 token 的处理,一个专门的路由器网络会选择 2 个最合适的专家(Top-2 路由)。
- 参数:模型的总参数量为 467亿,但由于采用了稀疏激活机制,在推理过程中每个 token 仅使用 129亿 个活动参数。这使得其推理速度可与约130亿参数的模型相媲美。
- 注意力优化:该模型采用多种现代技术来高效处理长序列,包括滑动窗口注意力 (Sliding Window Attention, SWA) 和分组查询注意力 (Grouped Query Attention, GQA)。
- 上下文长度:该模型支持长达 32,768 个 token 的上下文窗口。
训练
Mixtral 8x7B 系列包括两个主要版本:
- Mixtral-8x7B-v0.1(基础模型):一个预训练模型,使用了包含多种欧洲语言(英语、法语、德语、西班牙语、意大利语)的大型网络数据语料库进行训练。其主要任务是预测下一个 token。
- Mixtral-8x7B-Instruct-v0.1(指令模型):通过监督微调 (supervised fine-tuning, SFT) 和直接偏好优化 (Direct Preference Optimization, DPO) 进行微调的版本。该模型能更好地遵循用户指令,专为对话格式设计。
性能
在大多数标准基准测试中,Mixtral 8x7B 的性能优于或媲美 Llama 2 70B 模型,而其活动参数数量仅为后者的五分之一,因此推理速度显著提高(快达6倍)[2]。
| 指标 | Llama 2 70B | GPT-3.5 | Mixtral 8x7B |
|---|---|---|---|
| MMLU(通用知识) | 69,9% | 70,0% | 70,6% |
| GSM-8K(数学) | 53,6% | 57,1% | 58,4% |
| MBPP(代码生成) | 49,8% | 52,2% | 60,7% |
| MT-Bench(对话评估,指令版本) | 6,86 | 8,32 | 8,30 |
- 多语言能力:由于训练语料库中多语言数据的比例增加,Mixtral 在法语、德语、西班牙语和意大利语任务上的表现显著优于 Llama 2 70B。
- 偏见与幻觉:与 Llama 2 70B 相比,该模型在 BBQ 基准测试(评估社会偏见)中表现出更高的准确性,并在 BOLD 基准测试中展现出更积极的情感倾向。
许可与可用性
Mixtral 8x7B 的两个版本(基础版和指令版)均在 Apache 2.0 许可下发布,允许自由用于学术和商业目的。模型的源代码和权重可在 GitHub 和 Hugging Face 上获取。
链接
- Mixtral of Experts — Mistral AI 博客官方公告
- Hugging Face 上的 Mixtral 8x7B 模型
参考文献
- Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
- Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
- Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
- Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
- Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.
注释