Mixtral

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Mixtral 8x7B — это большая языковая модель (LLM) с открытым исходным кодом, разработанная французской компанией Mistral AI и выпущенная в декабре 2023 года. Модель основана на архитектуре разреженной смеси экспертов (Sparse Mixture of Experts, SMoE), что позволяет ей сочетать производительность, сопоставимую с гораздо более крупными моделями (например, Llama 2 70B и GPT-3.5), с высокой скоростью и эффективностью инференса[1].

Модель распространяется под свободной лицензией Apache 2.0, что делает её доступной для академического и коммерческого использования. Mixtral 8x7B демонстрирует сильные способности в многоязычных задачах, генерации кода и следовании инструкциям, что сделало её одной из самых популярных открытых моделей на момент выпуска[2].

История разработки

Компания Mistral AI была основана в апреле 2023 года бывшими исследователями из Meta и Google. В сентябре 2023 года компания выпустила свою первую модель, Mistral 7B, которая получила признание за высокую эффективность при небольшом размере.

11 декабря 2023 года Mistral AI анонсировала выпуск Mixtral 8x7B, своей первой модели на основе архитектуры смеси экспертов. Модель сразу привлекла внимание сообщества как самая мощная на тот момент открытая LLM, продемонстрировав качество на уровне GPT-3.5 при значительно более высокой скорости инференса. В январе 2024 года было опубликовано подробное техническое описание модели в виде научной статьи на arXiv, что позволило независимым исследователям ознакомиться с деталями архитектуры и результатами тестов[2].

Архитектура: Разреженная смесь экспертов (SMoE)

Главным новшеством Mixtral 8x7B является внедрение архитектуры Sparse Mixture of Experts. В отличие от стандартных («плотных») трансформеров, где каждый слой выполняет одно и то же вычисление для всех токенов, в Mixtral каждый слой содержит несколько параллельных блоков-«экспертов».

Ключевые особенности архитектуры:

  • Структура MoE: Каждый трансформерный слой содержит 8 feed-forward блоков («экспертов»). Для обработки каждого токена специальная router-сеть выбирает 2 наиболее подходящих эксперта (Top-2 routing).
  • Параметры: Общее число параметров модели составляет 46,7 млрд, однако благодаря разреженной активации для каждого токена в процессе вывода используется только 12,9 млрд активных параметров. Это обеспечивает скорость инференса, сопоставимую с моделями на ~13 млрд параметров.
  • Оптимизация внимания: Модель использует современные техники для эффективной обработки длинных последовательностей, включая Sliding Window Attention (SWA) и Grouped Query Attention (GQA).
  • Длина контекста: Модель поддерживает контекстное окно длиной до 32 768 токенов.

Обучение

Семейство Mixtral 8x7B включает две основные версии: 1. Mixtral-8x7B-v0.1 (базовая модель): Предобученная модель, натренированная на большом корпусе веб-данных на нескольких европейских языках (английский, французский, немецкий, испанский, итальянский). Основная задача — предсказание следующего токена. 2. Mixtral-8x7B-Instruct-v0.1 (инструктивная модель): Версия, дообученная с помощью supervised fine-tuning (SFT) и Direct Preference Optimization (DPO). Эта модель лучше следует инструкциям пользователя и предназначена для использования в диалоговом формате.

Производительность

Mixtral 8x7B превосходит или сравним по качеству с моделью Llama 2 70B на большинстве стандартных бенчмарков, имея при этом в 5 раз меньше активных параметров и, как следствие, значительно более высокую скорость вывода (до 6 раз быстрее)[2].

Сравнение производительности Mixtral 8x7B с Llama 2 70B и GPT-3.5[2]
Метрика Llama 2 70B GPT-3.5 Mixtral 8x7B
MMLU (общие знания) 69,9% 70,0% 70,6%
GSM-8K (математика) 53,6% 57,1% 58,4%
MBPP (генерация кода) 49,8% 52,2% 60,7%
MT-Bench (оценка диалога, Instruct-версии) 6,86 8,32 8,30
  • Многоязычность: Благодаря увеличенной доле многоязычных данных в обучающем корпусе, Mixtral значительно превосходит Llama 2 70B в задачах на французском, немецком, испанском и итальянском языках.
  • Смещение и галлюцинации: В сравнении с Llama 2 70B модель демонстрирует более высокую точность на бенчмарке BBQ (оценка социальных предубеждений) и более позитивный профиль настроений на бенчмарке BOLD.

Лицензирование и доступность

Обе версии Mixtral 8x7B (базовая и Instruct) выпущены под лицензией Apache 2.0, которая разрешает свободное академическое и коммерческое использование. Исходные коды и веса моделей доступны на GitHub и Hugging Face.

Ссылки

Литература

  • Jiang, A. Q.; Sablayrolles, A.; Roux, A.; et al. (2024). Mixtral of Experts. arXiv:2401.04088.
  • Shazeer, N.; et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
  • Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Ainslie, J.; et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
  • Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Cai, W.; et al. (2025). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
  • Huang, B.; et al. (2024). Toward Efficient Inference for Mixture of Experts. OpenReview: stXtBqyTWX.

Примечания

  1. «Mixtral of Experts». Mistral AI Blog. 11 Dec 2023. [1]
  2. 2,0 2,1 2,2 2,3 Jiang, A. Q., Sablayrolles, A., Roux, A., et al. (2024). «Mixtral of Experts». arXiv:2401.04088. [2]