Mixtral (Mistral AI) — Mixtral（Mistral AI 的专家混合模型）

Mixtral 8x7B 是一款由法国公司 Mistral AI 开发的开源大语言模型 (LLM)，于2023年12月发布。该模型基于稀疏专家混合 (Sparse Mixture of Experts, SMoE) 架构，这使其能够在性能上与 Llama 2 70B 和 GPT-3.5 等更大规模的模型相媲美的同时，保持极高的推理速度和效率^[1]。

该模型根据宽松的 Apache 2.0 许可证分发，可用于学术和商业用途。Mixtral 8x7B 在多语言任务、代码生成和指令遵循方面表现出色，使其成为发布时最受欢迎的开源模型之一^[2]。

开发历史

Mistral AI 公司由来自 Meta 和 Google 的前研究人员于2023年4月创立。2023年9月，该公司发布了其首个模型 Mistral 7B，该模型因其小尺寸和高效率而备受赞誉。

2023年12月11日，Mistral AI 宣布推出其首个基于专家混合架构的模型 Mixtral 8x7B。该模型立即引起了社区的关注，被认为是当时最强大的开源 LLM，其性能与 GPT-3.5 相当，但推理速度显著提高。2024年1月，该模型的详细技术描述以科学论文的形式在 arXiv 上发表，使独立研究人员能够了解其架构细节和测试结果^[2]。

架构：稀疏专家混合 (SMoE)

Mixtral 8x7B 的主要创新是引入了 Sparse Mixture of Experts 架构。与标准的“密集”Transformer 模型不同（每个层对所有 token 执行相同的计算），在 Mixtral 中，每个层都包含多个并行的“专家”块。

架构的主要特点：

MoE 结构：每个 Transformer 层包含 8 个前馈网络块（“专家”）。对于每个 token 的处理，一个专门的路由器网络会选择 2 个最合适的专家（Top-2 路由）。
参数：模型的总参数量为 467亿，但由于采用了稀疏激活机制，在推理过程中每个 token 仅使用 129亿 个活动参数。这使得其推理速度可与约130亿参数的模型相媲美。
注意力优化：该模型采用多种现代技术来高效处理长序列，包括滑动窗口注意力 (Sliding Window Attention, SWA) 和分组查询注意力 (Grouped Query Attention, GQA)。
上下文长度：该模型支持长达 32,768 个 token 的上下文窗口。

训练

Mixtral 8x7B 系列包括两个主要版本：

Mixtral-8x7B-v0.1（基础模型）：一个预训练模型，使用了包含多种欧洲语言（英语、法语、德语、西班牙语、意大利语）的大型网络数据语料库进行训练。其主要任务是预测下一个 token。
Mixtral-8x7B-Instruct-v0.1（指令模型）：通过监督微调 (supervised fine-tuning, SFT) 和直接偏好优化 (Direct Preference Optimization, DPO) 进行微调的版本。该模型能更好地遵循用户指令，专为对话格式设计。

性能

在大多数标准基准测试中，Mixtral 8x7B 的性能优于或媲美 Llama 2 70B 模型，而其活动参数数量仅为后者的五分之一，因此推理速度显著提高（快达6倍）^[2]。

Mixtral 8x7B、Llama 2 70B 和 GPT-3.5 性能对比^[2]
指标	Llama 2 70B	GPT-3.5	Mixtral 8x7B
MMLU（通用知识）	69,9%	70,0%	70,6%
GSM-8K（数学）	53,6%	57,1%	58,4%
MBPP（代码生成）	49,8%	52,2%	60,7%
MT-Bench（对话评估，指令版本）	6,86	8,32	8,30

多语言能力：由于训练语料库中多语言数据的比例增加，Mixtral 在法语、德语、西班牙语和意大利语任务上的表现显著优于 Llama 2 70B。
偏见与幻觉：与 Llama 2 70B 相比，该模型在 BBQ 基准测试（评估社会偏见）中表现出更高的准确性，并在 BOLD 基准测试中展现出更积极的情感倾向。

许可与可用性

Mixtral 8x7B 的两个版本（基础版和指令版）均在 Apache 2.0 许可下发布，允许自由用于学术和商业目的。模型的源代码和权重可在 GitHub 和 Hugging Face 上获取。

链接

Mixtral of Experts — Mistral AI 博客官方公告
Hugging Face 上的 Mixtral 8x7B 模型

参考文献

Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.

注释

↑ “Mixtral of Experts”. Mistral AI Blog. 11 Dec 2023. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). “Mixtral of Experts”. arXiv:2401.04088. [2]

[mistral_blog-1] “Mixtral of Experts”. Mistral AI Blog. 11 Dec 2023. [1]

[arxiv_paper-2] 2.0 ^2.1 ^2.2 ^2.3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). “Mixtral of Experts”. arXiv:2401.04088. [2]

[1]

[2]

Mixtral (Mistral AI) — Mixtral（Mistral AI 的专家混合模型）

Contents

开发历史

架构：稀疏专家混合 (SMoE)

训练

性能

许可与可用性

链接

参考文献

注释

Navigation menu

Mixtral (Mistral AI) — Mixtral（Mistral AI 的专家混合模型）

开发历史

架构：稀疏专家混合 (SMoE)

训练

性能

许可与可用性

链接

参考文献

注释

Navigation menu

Search