Mistral AI — 米斯特拉尔
Mistral AI 是一家法国人工智能公司,专注于开发大型语言模型 (LLM)。该公司成立于2023年4月,迅速成为欧洲乃至全球市场的关键参与者之一,将自己定位为美国科技巨头专有模型的替代品。
Mistral AI 方法的一个关键特点是专注于创建具有开放权重的高性能模型(主要基于 Apache 2.0 许可证),这有助于普及对尖端 AI 技术的访问。该公司以其架构创新而闻名,例如Grouped-Query Attention (GQA)、Sliding Window Attention (SWA) 和 Sparse Mixture-of-Experts (MoE),这些创新使其模型能够在相对较小的规模和计算成本下实现高效率。
历史
Mistral AI 公司于2023年4月在巴黎由三位法国研究员创立:阿尔蒂尔·门施 (Arthur Mensch)、纪尧姆·兰普尔 (Guillaume Lample) 和 蒂莫泰·拉克鲁瓦 (Timothée Lacroix)。三位创始人都曾在世界顶尖公司从事大型语言模型的研究工作:门施曾是 Google DeepMind 的研究员,而兰普尔和拉克鲁瓦则在 Meta AI 负责 LLM 项目。
公司的使命是通过推动开放、协作和透明,让所有人都能享受到先进的 AI 成果。这种方法使 Mistral AI 迅速吸引了大量投资:
- 2023年6月: 在种子轮融资中筹集了1.05亿欧元,创下了欧洲的纪录。
- 2023年12月: 在A轮融资中筹集了3.85亿欧元,此后公司估值超过20亿美元,成为“独角兽”企业。
- 2024年2月: 宣布与微软建立战略合作伙伴关系,其中包括1600万美元的投资,并将 Mistral 模型部署在 Azure 云上。
- 2024年6月: 新一轮融资筹集了6亿欧元,公司估值达到约58亿欧元,成为全球估值最高的 AI 初创公司之一。
架构技术特点
Mistral AI 的模型基于 Transformer 架构,但进行了一系列关键创新,旨在提高效率并降低计算成本。
带有改进的 Transformer (Mistral 7B)
公司的第一个模型 Mistral 7B 引入了两项重要的架构改进:
- Sliding Window Attention (SWA)(滑动窗口注意力):每个词元(token)不再与之前的所有词元进行交互(这具有二次方复杂度),SWA 将注意力限制在一个固定大小的窗口内(例如4096个词元)。这使得模型能够以线性计算复杂度处理非常长的序列(最长可达32,000个词元甚至更长),从而显著加快处理速度。
- Grouped-Query Attention (GQA)(分组查询注意力):这是对标准多头注意力机制的优化。GQA 为键(keys)和值(values)使用的“头”数量少于查询(queries)的数量(例如,比例为8:1),这显著降低了内存需求并加快了生成过程(推理),而不会显著影响质量。
Sparse Mixture-of-Experts (MoE) - 稀疏专家混合模型
在 Mixtral 系列模型中(例如 Mixtral 8x7B、Mixtral 8x22B),采用了稀疏专家混合模型(Sparse Mixture-of-Experts)架构。它不使用单一的密集神经网络层,而是使用多个并行的“专家”子网络。对于每个输入的词元,一个特殊的门控层(路由器)会动态选择一小部分专家进行激活(通常是8个中的2个)。
这使得模型可以拥有巨大的总参数量(Mixtral 8x22B 有1410亿个参数),但在处理每个词元时只使用其中的一小部分(约390亿个)。因此,该模型的质量可与规模大得多的“密集”模型相媲美,但其推理速度和成本却与小得多的模型相当。
Mamba 架构 (SSM)
2024年,Mistral AI 推出了一款基于 Mamba(选择性状态空间模型) 架构的实验性模型 Codestral Mamba。与 Transformer 不同,Mamba 采用基于状态空间模型的循环机制。其主要优点包括:
- 线性复杂度:在序列长度上具有线性复杂度,使其在处理长上下文时速度极快。
- 理论上“无限”的上下文:仅受可用内存限制。
- 高推理速度:与同等规模的 Transformer 模型相比。
年表与模型
| 月份 / 年份 | 模型 | 参数(十亿) | 主要特点 | 许可证 |
|---|---|---|---|---|
| 2023年9月 | Mistral 7B | 7.3 | GQA + SWA 架构;32k 上下文;在所有基准测试中优于 Llama 2 13B。 | Apache 2.0 |
| 2023年12月 | Mixtral 8x7B | 46.7 (12.9 活跃) | 首个开放的 MoE 模型;质量与 GPT-3.5 相当。 | Apache 2.0 |
| 2024年2月 | Mistral Small / Large | ? | 通过 API 提供的“小型”和旗舰模型。 | Small: Apache 2.0, Large: Research |
| 2024年4月 | Mixtral 8x22B | 141 (39 活跃) | 64k 上下文;发布时在开源模型中达到 SOTA 质量。 | Apache 2.0 |
| 2024年5月 | Codestral 22B | 22 | 专门用于代码生成的模型(支持80多种语言)。 | Non-Production |
| 2024年7月 | Mathstral 7B / Nemo 12B | 7 / 12 | 专为数学和多语言任务设计的模型。 | Apache 2.0 |
| 2024年7月 | Codestral Mamba 7.3B | 7.3 | 基于 Mamba 架构的实验性代码模型;上下文 256k+。 | Apache 2.0 |
| 2024年9月 | Pixtral 12B | 12 | 首个开放的多模态模型(文本+图像)。 | Apache 2.0 |
| 2024年11月 | Mistral Large 24.11 | ~100+ (估计) | 更新后的旗舰模型,具有增强的推理能力。 | Research |
| 2025年1月 | Mistral Small 3 | 24 | 专为低延迟优化(高达150词元/秒);质量与70B模型相当。 | Apache 2.0 |
| 2025年5月 | Mistral Medium 3 | ? | 前沿多模态模型(文本、图像),上下文 128k。 | 专有 |
| 2025年5月 | Devstral 24B | 24 | 用于自主软件开发的“代理”模型;在 SWE-Bench 上得分46.8%。 | Apache 2.0 |
与竞争对手的比较
- vs. Llama (Meta): Mistral 模型一直优于同等规模甚至更大规模的 Llama 模型。Mistral 7B 优于 Llama 2 13B,而 Mixtral 8x7B 优于 Llama 2 70B。主要区别在于许可证:Mistral 使用完全宽松的 Apache 2.0 许可证,而 Llama 的许可证则有限制。
- vs. GPT (OpenAI): OpenAI 的旗舰模型 (GPT-4) 在最复杂的任务中仍然处于领先地位,但 Mistral 的开放模型(例如 Mixtral 8x7B)表现出与 GPT-3.5 相当的质量。Mistral 提供了一个开放的替代方案,允许在本地部署和完全控制模型。
- vs. Claude (Anthropic): Claude 模型以其较大的上下文窗口和对安全性的关注而闻名。Mistral 提供了具有相当或更大上下文的开放模型。在标准基准测试 (LMSys Arena) 中,Medium 3 模型的性能超过了 Claude 3 Opus。
应用与生态系统
产品
- Le Chat: 公共聊天助手(网页版、iOS/Android),展示 Mistral 模型的功能,包括网页搜索和图像生成。
- La Plateforme: 企业级平台,通过 API 访问所有 Mistral 模型,允许公司将 LLM 集成到其产品中。
企业客户
Mistral 的技术被 法国巴黎银行 (BNP Paribas, 金融)、达飞海运集团 (CMA CGM, 物流)、Zalando (电子商务) 等大型公司以及政府机构 France Travail 使用。对于欧洲客户而言,能够在本地部署模型以符合 GDPR 规定非常重要。
开源社区
由于采用了开放许可证,Mistral 模型已成为 Hugging Face 等平台上数千个项目的基础。社区积极地对模型进行微调,以解决特定任务,创建了用于生物学 (BioMistral)、法学 (SaulLM-7B) 和各种语言本地化(例如波兰语的 Bielik 7B)的版本。
许可
| 模型系列 | 许可证 | 限制 |
|---|---|---|
| 基础、Small、Mixtral、Mathstral、Nemo、Pixtral、Devstral | Apache 2.0 | 自由商业使用。 |
| Codestral 22B | Non-Production License | 未经单独协议,禁止商业使用。 |
| Large 系列、Medium 系列 | Mistral Research / 专有 | 仅通过云 API 访问。 |
链接
参考文献
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jiang, A. Q. et al. (2023). Mistral 7B. arXiv:2310.06825.
- Jiang, A. Q. et al. (2024). Mixtral of Experts. arXiv:2401.04088.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.