Mixtral (Mistral AI) — ミクストラル

Mixtral 8x7Bは、フランスの企業Mistral AIによって開発され、2023年12月にリリースされたオープンソースの大規模言語モデル（LLM）です。このモデルはスパース混合エキスパート（Sparse Mixture of Experts, SMoE）アーキテクチャに基づいており、これにより、はるかに大規模なモデル（例：Llama 2 70B、GPT-3.5）に匹敵する性能と、高速かつ効率的な推論を両立させています^[1]。

このモデルは寛容なApache 2.0ライセンスの下で配布されており、学術および商用利用が可能です。Mixtral 8x7Bは、多言語タスク、コード生成、指示追従において高い能力を示し、リリース時点で最も人気のあるオープンモデルの1つとなりました^[2]。

開発経緯

Mistral AI社は、Meta社とGoogle社の元研究者らによって2023年4月に設立されました。2023年9月、同社は最初のモデルであるMistral 7Bをリリースし、そのコンパクトなサイズと高い効率性で評価を得ました。

2023年12月11日、Mistral AIは、同社初の混合エキスパートアーキテクチャに基づくモデルMixtral 8x7Bのリリースを発表しました。このモデルは、GPT-3.5レベルの品質をはるかに高速な推論速度で実証し、当時最も強力なオープンLLMとして、コミュニティから即座に注目を集めました。2024年1月には、arXivでモデルの詳細な技術論文が公開され、独立した研究者がアーキテクチャの詳細とテスト結果を確認できるようになりました^[2]。

アーキテクチャ：スパース混合エキスパート（SMoE）

Mixtral 8x7Bの主な革新は、Sparse Mixture of Expertsアーキテクチャの導入です。標準的な（「密な」）トランスフォーマーでは、各層がすべてのトークンに対して同じ計算を実行しますが、Mixtralでは各層に複数の並列な「エキスパート」ブロックが含まれています。

アーキテクチャの主な特徴：

MoE構造: 各トランスフォーマー層には8つのフィードフォワードブロック（「エキスパート」）が含まれています。各トークンを処理するために、特別な「ルーターネットワーク」が最も適切な2つのエキスパートを選択します（Top-2ルーティング）。
パラメータ: モデルの総パラメータ数は467億ですが、スパースな活性化により、推論時に各トークンに対して使用されるアクティブなパラメータは129億のみです。これにより、約130億パラメータのモデルに匹敵する推論速度が実現されています。
アテンションの最適化: このモデルは、Sliding Window Attention (SWA)やGrouped Query Attention (GQA)など、長いシーケンスを効率的に処理するための最新技術を使用しています。
コンテキスト長: このモデルは、最大32,768トークンのコンテキストウィンドウをサポートしています。

トレーニング

Mixtral 8x7Bファミリーには、主に2つのバージョンがあります。

Mixtral-8x7B-v0.1（ベースモデル）: 大規模なウェブデータコーパスで事前学習されたモデルで、複数のヨーロッパ言語（英語、フランス語、ドイツ語、スペイン語、イタリア語）でトレーニングされています。主なタスクは次のトークンの予測です。
Mixtral-8x7B-Instruct-v0.1（インストラクションモデル）: supervised fine-tuning (SFT)とDirect Preference Optimization (DPO)を用いて追加学習されたバージョンです。このモデルはユーザーの指示により良く従い、対話形式での使用を目的としています。

パフォーマンス

Mixtral 8x7Bは、ほとんどの標準的なベンチマークにおいてLlama 2 70Bモデルを上回るか同等の品質を示しながら、アクティブパラメータ数は5分の1であり、結果として推論速度が大幅に向上しています（最大6倍高速）^[2]。

Mixtral 8x7B、Llama 2 70B、GPT-3.5のパフォーマンス比較^[2]
メトリック	Llama 2 70B	GPT-3.5	Mixtral 8x7B
MMLU（一般知識）	69,9%	70,0%	70,6%
GSM-8K（数学）	53,6%	57,1%	58,4%
MBPP（コード生成）	49,8%	52,2%	60,7%
MT-Bench（対話評価、Instruct版）	6,86	8,32	8,30

多言語性: トレーニングコーパスにおける多言語データの割合が増加したことにより、Mixtralはフランス語、ドイツ語、スペイン語、イタリア語のタスクにおいてLlama 2 70Bを大幅に上回ります。
バイアスとハルシネーション: Llama 2 70Bと比較して、このモデルはBBQベンチマーク（社会的バイアスの評価）でより高い精度を示し、BOLDベンチマークではより肯定的なセンチメントプロファイルを示します。

ライセンスと可用性

Mixtral 8x7Bの両バージョン（ベースモデルとInstructモデル）は、自由な学術利用および商用利用を許可するApache 2.0ライセンスの下でリリースされています。ソースコードとモデルの重みはGitHubおよびHugging Faceで公開されています。

外部リンク

Mixtral of Experts - Mistral AI公式ブログでの発表
Hugging Face上のMixtral 8x7Bモデル

参考文献

Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.

脚注

↑ «Mixtral of Experts». Mistral AI Blog. 11 Dec 2023. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). «Mixtral of Experts». arXiv:2401.04088. [2]

[mistral_blog-1] «Mixtral of Experts». Mistral AI Blog. 11 Dec 2023. [1]

[arxiv_paper-2] 2.0 ^2.1 ^2.2 ^2.3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). «Mixtral of Experts». arXiv:2401.04088. [2]

[1]

[2]

Mixtral (Mistral AI) — ミクストラル

Contents

開発経緯

アーキテクチャ：スパース混合エキスパート（SMoE）

トレーニング

パフォーマンス

ライセンスと可用性

外部リンク

参考文献

脚注

Navigation menu

Mixtral (Mistral AI) — ミクストラル

開発経緯

アーキテクチャ：スパース混合エキスパート（SMoE）

トレーニング

パフォーマンス

ライセンスと可用性

外部リンク

参考文献

脚注

Navigation menu

Search