Mixtral (Mistral AI) — ミクストラル

From Systems analysis wiki
Jump to navigation Jump to search

Mixtral 8x7Bは、フランスの企業Mistral AIによって開発され、2023年12月にリリースされたオープンソースの大規模言語モデル(LLM)です。このモデルはスパース混合エキスパート(Sparse Mixture of Experts, SMoE)アーキテクチャに基づいており、これにより、はるかに大規模なモデル(例:Llama 2 70B、GPT-3.5)に匹敵する性能と、高速かつ効率的な推論を両立させています[1]

このモデルは寛容なApache 2.0ライセンスの下で配布されており、学術および商用利用が可能です。Mixtral 8x7Bは、多言語タスク、コード生成、指示追従において高い能力を示し、リリース時点で最も人気のあるオープンモデルの1つとなりました[2]

開発経緯

Mistral AI社は、Meta社とGoogle社の元研究者らによって2023年4月に設立されました。2023年9月、同社は最初のモデルであるMistral 7Bをリリースし、そのコンパクトなサイズと高い効率性で評価を得ました。

2023年12月11日、Mistral AIは、同社初の混合エキスパートアーキテクチャに基づくモデルMixtral 8x7Bのリリースを発表しました。このモデルは、GPT-3.5レベルの品質をはるかに高速な推論速度で実証し、当時最も強力なオープンLLMとして、コミュニティから即座に注目を集めました。2024年1月には、arXivでモデルの詳細な技術論文が公開され、独立した研究者がアーキテクチャの詳細とテスト結果を確認できるようになりました[2]

アーキテクチャ:スパース混合エキスパート(SMoE)

Mixtral 8x7Bの主な革新は、Sparse Mixture of Expertsアーキテクチャの導入です。標準的な(「密な」)トランスフォーマーでは、各層がすべてのトークンに対して同じ計算を実行しますが、Mixtralでは各層に複数の並列な「エキスパート」ブロックが含まれています。

アーキテクチャの主な特徴:

  • MoE構造: 各トランスフォーマー層には8つのフィードフォワードブロック(「エキスパート」)が含まれています。各トークンを処理するために、特別な「ルーターネットワーク」が最も適切な2つのエキスパートを選択します(Top-2ルーティング)。
  • パラメータ: モデルの総パラメータ数は467億ですが、スパースな活性化により、推論時に各トークンに対して使用されるアクティブなパラメータは129億のみです。これにより、約130億パラメータのモデルに匹敵する推論速度が実現されています。
  • アテンションの最適化: このモデルは、Sliding Window Attention (SWA)Grouped Query Attention (GQA)など、長いシーケンスを効率的に処理するための最新技術を使用しています。
  • コンテキスト長: このモデルは、最大32,768トークンのコンテキストウィンドウをサポートしています。

トレーニング

Mixtral 8x7Bファミリーには、主に2つのバージョンがあります。

  1. Mixtral-8x7B-v0.1(ベースモデル): 大規模なウェブデータコーパスで事前学習されたモデルで、複数のヨーロッパ言語(英語、フランス語、ドイツ語、スペイン語、イタリア語)でトレーニングされています。主なタスクは次のトークンの予測です。
  2. Mixtral-8x7B-Instruct-v0.1(インストラクションモデル): supervised fine-tuning (SFT)Direct Preference Optimization (DPO)を用いて追加学習されたバージョンです。このモデルはユーザーの指示により良く従い、対話形式での使用を目的としています。

パフォーマンス

Mixtral 8x7Bは、ほとんどの標準的なベンチマークにおいてLlama 2 70Bモデルを上回るか同等の品質を示しながら、アクティブパラメータ数は5分の1であり、結果として推論速度が大幅に向上しています(最大6倍高速)[2]

Mixtral 8x7B、Llama 2 70B、GPT-3.5のパフォーマンス比較[2]
メトリック Llama 2 70B GPT-3.5 Mixtral 8x7B
MMLU(一般知識) 69,9% 70,0% 70,6%
GSM-8K(数学) 53,6% 57,1% 58,4%
MBPP(コード生成) 49,8% 52,2% 60,7%
MT-Bench(対話評価、Instruct版) 6,86 8,32 8,30
  • 多言語性: トレーニングコーパスにおける多言語データの割合が増加したことにより、Mixtralはフランス語、ドイツ語、スペイン語、イタリア語のタスクにおいてLlama 2 70Bを大幅に上回ります。
  • バイアスとハルシネーション: Llama 2 70Bと比較して、このモデルはBBQベンチマーク(社会的バイアスの評価)でより高い精度を示し、BOLDベンチマークではより肯定的なセンチメントプロファイルを示します。

ライセンスと可用性

Mixtral 8x7Bの両バージョン(ベースモデルとInstructモデル)は、自由な学術利用および商用利用を許可するApache 2.0ライセンスの下でリリースされています。ソースコードとモデルの重みはGitHubおよびHugging Faceで公開されています。

外部リンク

参考文献

  • Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
  • Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
  • Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
  • Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
  • Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.

脚注

  1. «Mixtral of Experts». Mistral AI Blog. 11 Dec 2023. [1]
  2. 2.0 2.1 2.2 2.3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). «Mixtral of Experts». arXiv:2401.04088. [2]