Mixtral (Mistral AI) — ミクストラル
Mixtral 8x7Bは、フランスの企業Mistral AIによって開発され、2023年12月にリリースされたオープンソースの大規模言語モデル(LLM)です。このモデルはスパース混合エキスパート(Sparse Mixture of Experts, SMoE)アーキテクチャに基づいており、これにより、はるかに大規模なモデル(例:Llama 2 70B、GPT-3.5)に匹敵する性能と、高速かつ効率的な推論を両立させています[1]。
このモデルは寛容なApache 2.0ライセンスの下で配布されており、学術および商用利用が可能です。Mixtral 8x7Bは、多言語タスク、コード生成、指示追従において高い能力を示し、リリース時点で最も人気のあるオープンモデルの1つとなりました[2]。
開発経緯
Mistral AI社は、Meta社とGoogle社の元研究者らによって2023年4月に設立されました。2023年9月、同社は最初のモデルであるMistral 7Bをリリースし、そのコンパクトなサイズと高い効率性で評価を得ました。
2023年12月11日、Mistral AIは、同社初の混合エキスパートアーキテクチャに基づくモデルMixtral 8x7Bのリリースを発表しました。このモデルは、GPT-3.5レベルの品質をはるかに高速な推論速度で実証し、当時最も強力なオープンLLMとして、コミュニティから即座に注目を集めました。2024年1月には、arXivでモデルの詳細な技術論文が公開され、独立した研究者がアーキテクチャの詳細とテスト結果を確認できるようになりました[2]。
アーキテクチャ:スパース混合エキスパート(SMoE)
Mixtral 8x7Bの主な革新は、Sparse Mixture of Expertsアーキテクチャの導入です。標準的な(「密な」)トランスフォーマーでは、各層がすべてのトークンに対して同じ計算を実行しますが、Mixtralでは各層に複数の並列な「エキスパート」ブロックが含まれています。
アーキテクチャの主な特徴:
- MoE構造: 各トランスフォーマー層には8つのフィードフォワードブロック(「エキスパート」)が含まれています。各トークンを処理するために、特別な「ルーターネットワーク」が最も適切な2つのエキスパートを選択します(Top-2ルーティング)。
- パラメータ: モデルの総パラメータ数は467億ですが、スパースな活性化により、推論時に各トークンに対して使用されるアクティブなパラメータは129億のみです。これにより、約130億パラメータのモデルに匹敵する推論速度が実現されています。
- アテンションの最適化: このモデルは、Sliding Window Attention (SWA)やGrouped Query Attention (GQA)など、長いシーケンスを効率的に処理するための最新技術を使用しています。
- コンテキスト長: このモデルは、最大32,768トークンのコンテキストウィンドウをサポートしています。
トレーニング
Mixtral 8x7Bファミリーには、主に2つのバージョンがあります。
- Mixtral-8x7B-v0.1(ベースモデル): 大規模なウェブデータコーパスで事前学習されたモデルで、複数のヨーロッパ言語(英語、フランス語、ドイツ語、スペイン語、イタリア語)でトレーニングされています。主なタスクは次のトークンの予測です。
- Mixtral-8x7B-Instruct-v0.1(インストラクションモデル): supervised fine-tuning (SFT)とDirect Preference Optimization (DPO)を用いて追加学習されたバージョンです。このモデルはユーザーの指示により良く従い、対話形式での使用を目的としています。
パフォーマンス
Mixtral 8x7Bは、ほとんどの標準的なベンチマークにおいてLlama 2 70Bモデルを上回るか同等の品質を示しながら、アクティブパラメータ数は5分の1であり、結果として推論速度が大幅に向上しています(最大6倍高速)[2]。
| メトリック | Llama 2 70B | GPT-3.5 | Mixtral 8x7B |
|---|---|---|---|
| MMLU(一般知識) | 69,9% | 70,0% | 70,6% |
| GSM-8K(数学) | 53,6% | 57,1% | 58,4% |
| MBPP(コード生成) | 49,8% | 52,2% | 60,7% |
| MT-Bench(対話評価、Instruct版) | 6,86 | 8,32 | 8,30 |
- 多言語性: トレーニングコーパスにおける多言語データの割合が増加したことにより、Mixtralはフランス語、ドイツ語、スペイン語、イタリア語のタスクにおいてLlama 2 70Bを大幅に上回ります。
- バイアスとハルシネーション: Llama 2 70Bと比較して、このモデルはBBQベンチマーク(社会的バイアスの評価)でより高い精度を示し、BOLDベンチマークではより肯定的なセンチメントプロファイルを示します。
ライセンスと可用性
Mixtral 8x7Bの両バージョン(ベースモデルとInstructモデル)は、自由な学術利用および商用利用を許可するApache 2.0ライセンスの下でリリースされています。ソースコードとモデルの重みはGitHubおよびHugging Faceで公開されています。
外部リンク
- Mixtral of Experts - Mistral AI公式ブログでの発表
- Hugging Face上のMixtral 8x7Bモデル
参考文献
- Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
- Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
- Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
- Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
- Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.
脚注