Qwen

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Qwen (кит. 通义千问, Tongyi Qianwen) — это семейство больших языковых моделей (LLM), разработанных подразделением облачных вычислений Alibaba Group — Alibaba Cloud[1]. Модели Qwen стали значительным вкладом китайского технологического гиганта в область искусственного интеллекта. Первая версия была представлена в бета-режиме в апреле 2023 года, а публичный релиз состоялся в сентябре 2023 года[1].

Семейство Qwen претерпело стремительную эволюцию, предлагая рынку как решения с открытым исходным кодом, так и проприетарные, более мощные варианты. Ключевые характеристики Qwen включают широкий диапазон размеров моделей (от сотен миллионов до сотен миллиардов параметров), развитые мультимодальные возможности (обработка текста, изображений, аудио и видео), поддержку большого количества языков и инновационные архитектурные решения, такие как смесь экспертов (MoE) и режим "мышления" для решения сложных задач[2].

На глобальном рынке Qwen позиционируется как серьезный конкурент ведущим моделям от OpenAI, Meta, Anthropic и Mistral AI. Стратегия Alibaba Cloud делает акцент как на высокой производительности, так и на доступности, что выражается в регулярном выпуске открытых моделей, преимущественно под лицензией Apache 2.0[3].

История и развитие

Развитие семейства Qwen характеризуется быстрыми темпами и стратегическими решениями, направленными как на открытое сообщество, так и на коммерческих пользователей. От первоначальной архитектуры, близкой к LLaMA, Alibaba Cloud перешла к созданию собственных уникальных решений, включая сложные MoE-архитектуры и продвинутые мультимодальные системы.

Основные релизы моделей Qwen
Дата релиза Модель Параметры (млрд) Ключевые особенности Лицензия
Август 2023 Qwen-7B 7 Первая открытая модель; предобучение на ~2.4 трлн токенов; контекстное окно 32k токенов[4]. Tongyi Qianwen License (требуется разрешение на коммерческое использование)[5]
Сентябрь 2023 Qwen-14B 14 Обучение на ~3.0 трлн токенов; улучшена точность на сложных задачах; контекстное окно 8k[6]. Tongyi Qianwen License
Ноябрь 2023 Qwen-72B 72 Флагманская модель, обученная на ~3.0 трлн токенов; контекст 32k; производительность на уровне лучших моделей того времени. Tongyi Qianwen License
Ноябрь 2023 Qwen-1.8B 1.8 Компактная модель для локального развертывания; предобучена на ~2.2 трлн токенов; контекст 32k. Tongyi Qianwen License
Июнь/Сентябрь 2024 Qwen 2 0.5–72 Второе поколение; обучение на ~7 трлн токенов; представлены MoE-модели (например, 57B-A14B); контекст увеличен до 128k с технологией YaRN[7]. Apache 2.0 (для большинства моделей)
Сентябрь 2024 Qwen 2.5 3–32 Промежуточное обновление; датасет расширен до ~18 трлн токенов; улучшены навыки решения задач кода и математики[8]. Apache 2.0 (кроме 72B)
Ноябрь 2024 QwQ-32B (Preview) 32 Экспериментальная модель "Qwen with Questions" для сложного пошагового рассуждения; контекст 32k. Apache 2.0 (только веса)
Январь 2025 Qwen2.5-VL 3–72 Мультимодальные модели (текст + изображение); анализ изображений произвольного разрешения; контекст до 128k[9]. Apache 2.0 (кроме 72B)
Март 2025 Qwen2.5-Omni-7B 7 Универсальная мультимодальная модель: вход (текст, изображение, видео, аудио), выход (текст, голос). Архитектура "Thinker-Talker"[10]. Apache 2.0
Апрель 2025 Qwen 3 0.6–235 (MoE) Третье поколение; обучение на ~36 трлн токенов на 119 языках; MoE-варианты (30B-A3B, 235B-A22B); встроенный режим "мышления вслух" (<think>); контекст 128k[11]. Apache 2.0 (все модели)

Архитектура и технические особенности

Модели Qwen построены на архитектуре трансформера типа "только декодер" (decoder-only), аналогичной LLaMA и GPT. Каждая модель представляет собой авторегрессивный декодер с многоголовым механизмом внимания и блоками feed-forward.

Ключевые архитектурные компоненты

  • Базовые элементы: В Qwen применяются стандартные для современных LLM решения: нормализация RMSNorm для стабильности обучения и функция активации SwiGLU в полносвязных слоях для улучшения производительности[4].
  • Позиционное кодирование: Используется Rotary Positional Embeddings (RoPE) для кодирования информации о позиции токенов, что позволяет эффективно обрабатывать длинные последовательности[8].
  • Эффективное внимание: Для ускорения вычислений и экономии памяти в механизме внимания применяется алгоритм FlashAttention[2].

Плотные модели и Смесь экспертов (MoE)

Семейство Qwen включает модели с двумя типами архитектур:

  • Плотные модели (Dense): Все параметры модели активны при обработке каждого токена. Примеры: Qwen-72B, Qwen2.5-32B. Эти модели проще в развертывании, но требуют больше вычислительных ресурсов при увеличении размера[11].
  • Модели "Смесь экспертов" (Mixture-of-Experts, MoE): В этих моделях вместо одного большого полносвязного слоя используется несколько меньших, специализированных "экспертов". Для каждого токена специальный слой-маршрутизатор (gating network) динамически выбирает небольшое подмножество экспертов для обработки. Это позволяет создавать модели с огромным общим числом параметров при значительно меньших вычислительных затратах на этапе инференса.
    • Qwen2-57B-A14B содержит 57 млрд общих параметров, но активирует только 14 млрд при каждом запросе[7].
    • Qwen3-235B-A22B содержит 235 млрд общих параметров, из которых активны 22 млрд[11].

Инновации для длинного контекста

Поддержка длинного контекста является одной из сильных сторон Qwen.

  • Первые модели поддерживали до 32k токенов.
  • В поколении Qwen 2 контекстное окно было увеличено до 128k токенов благодаря методу YaRN (Yet Another RoPE Extension), который позволяет расширять контекст без значительной потери качества[7].
  • Экспериментальная модель Qwen2.5-Turbo продемонстрировала работу с контекстом до 1 млн токенов[2].

"Thinking Mode" в Qwen 3

В третьем поколении Qwen реализован механизм "гибридного мышления" (hybrid thinking). Модель может явно формировать цепочку рассуждений (chain-of-thought) перед выдачей окончательного ответа.

  • По умолчанию Qwen 3 встраивает в вывод специальный блок <think>...</think>, где показывает пошаговое логическое рассуждение.
  • Пользователь может отключить этот режим, добавив команду /no_think в запрос.

Этот механизм улучшает способность модели решать сложные задачи, требующие многоэтапного вывода[3].

Многоязычный токенизатор

Qwen использует расширенный словарь токенов (около 151 000 токенов), основанный на BPE-словаре OpenAI GPT-4 (cl100k) с дополнительной оптимизацией под китайский язык и другие языки. Это позволяет эффективно кодировать иероглифы, латиницу и программный код, улучшая мультиязычные способности модели[4].

Мультимодальные возможности

Семейство Qwen активно развивается в направлении мультимодальности, предлагая модели, способные работать с различными типами данных:

  • Qwen-VL: Объединяет визуальный трансформер (для обработки изображений) с языковой моделью, позволяя отвечать на вопросы по изображениям и генерировать описания. Версия Qwen2.5-VL способна анализировать изображения произвольного разрешения и извлекать структурированные данные (например, из таблиц и форм)[9].
  • Qwen-Audio: Специализированная модель для обработки аудиоинформации, способная распознавать и генерировать речь, музыку и другие звуки[12].
  • Qwen2.5-Omni: Универсальная end-to-end мультимодальная модель, которая одновременно воспринимает текст, изображения, аудио и видео, а генерирует ответы в виде текста или естественной речи в потоковом режиме. В её основе лежит архитектура "Thinker-Talker", где "Thinker" (LLM) генерирует текстовый контент, а "Talker" (двухдорожечная авторегрессионная модель) синтезирует аудио[10].
  • Специализированные модели: Также выпущены модели, ориентированные на конкретные задачи, такие как Qwen-Coder (программирование) и Qwen-Math (решение математических задач).

Обучающие данные и масштаб

Модели Qwen обучаются на чрезвычайно больших корпусах данных, которые включают тексты из интернета, книги, научные статьи, программный код и математические данные.

  • Qwen 1.0 (7B): ~2.4 трлн токенов.
  • Qwen 1.0 (72B): ~3.0 трлн токенов.
  • Qwen 2.0: ~7 трлн токенов.
  • Qwen 2.5: ~18 трлн токенов.
  • Qwen 3.0: ~36 трлн токенов, охватывающих 119 языков и диалектов.

Для повышения качества данных применяются продвинутые методы фильтрации и генерация высококачественных синтетических данных, особенно для таких доменов, как математика и программирование[8].

Лицензирование и доступность

Политика лицензирования моделей Qwen эволюционировала с течением времени.

  • Ранние модели (Qwen 1): Распространялись под собственной лицензией Tongyi Qianwen License. Она разрешала академическое использование, но требовала подачи заявки и получения отдельного разрешения для коммерческого применения[5].
  • Поздние модели (Qwen 2, 2.5, 3): Начиная со второго поколения, разработчики перешли к более открытой политике. Большинство новых моделей были выпущены под разрешительной лицензией Apache License 2.0, что позволяет свободно использовать их как в научных, так и в коммерческих проектах[7]. С выходом семейства Qwen 3 все модели этого поколения стали полностью открытыми под Apache 2.0 без дополнительных ограничений[3].
  • Проприетарные и ограниченные модели: Несмотря на общую тенденцию к открытости, самые крупные или стратегически важные модели (например, Qwen2.5-Max, Qwen2.5-VL-72B) остаются проприетарными и доступны через платные API Alibaba Cloud или распространяются под более строгими исследовательскими лицензиями.

Сравнение с конкурентами и производительность

Модели Qwen активно позиционируются на высококонкурентном рынке и регулярно сравниваются с разработками ведущих мировых компаний.

  • vs. Llama (Meta): В технических отчетах Qwen часто демонстрирует превосходство над моделями Llama аналогичного размера. Например, Qwen2-72B показывает лучшие результаты на бенчмарках MMLU, HumanEval и GSM8K по сравнению с Llama-3-70B.
  • vs. GPT (OpenAI): Флагманские модели Qwen стремятся сократить разрыв с моделями GPT. Alibaba Cloud заявляет, что Qwen2.5-Max превосходит GPT-4o по некоторым академическим бенчмаркам, а Qwen2-72B-Instruct демонстрирует конкурентоспособность с GPT-4-Turbo.
  • vs. Mistral AI: Обе компании делают акцент на открытых моделях. Тесты показывают, что Qwen2-72B превосходит Mixtral-8x22B на ключевых бенчмарках[7].

Результаты на бенчмарках

Сравнение производительности флагманских моделей Qwen с конкурентами (данные на середину 2024 года)[7]
Модель MMLU (5-shot) HumanEval (0-shot) GSM8K (8-shot) MT-Bench
Qwen2-72B (базовая) 84.2 64.6 89.5 Н/П
Qwen2-72B-Instruct 82.3 86.0 93.2 9.12
Llama-3-70B (базовая) 79.5 48.2 83.0 Н/П
Llama-3-70B-Instruct 82.0 81.7 93.0 8.95
Mixtral-8x22B (базовая) 77.8 46.3 83.7 Н/П
Mixtral-8x22B-Instruct 74.0 73.8 89.1 8.66

Примечание: Н/П — не применимо или данные отсутствуют в указанных источниках.

Экосистема и применение

Семейство Qwen интегрируется в различные продукты и платформы, формируя вокруг себя развивающуюся экосистему.

  • Платформы Alibaba Cloud: Доступ к моделям, особенно к наиболее мощным проприетарным версиям, предоставляется через API-интерфейсы Model Studio. Платформа PAI-EAS (Platform for AI - Elastic Algorithm Service) позволяет развертывать, дообучать (fine-tuning) и кастомизировать модели Qwen.
  • Сообщество Open Source: Открытые версии моделей, их веса и код активно размещаются на платформах Hugging Face, ModelScope и GitHub[6], что способствует их широкому распространению и использованию исследователями и разработчиками по всему миру.
  • Применения: Модели используются для широкого спектра задач, от генерации контента и анализа данных до создания ИИ-агентов. Например, модели Qwen3 поддерживают протокол Model Context Protocol (MCP), который позволяет им более эффективно взаимодействовать с другими приложениями и инструментами.

Литература

Ссылки

Литература

  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  • Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  • Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
  • Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  • Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
  • Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
  • Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

Примечания

  1. 1,0 1,1 «Qwen». В Wikipedia [1]
  2. 2,0 2,1 2,2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [2]
  3. 3,0 3,1 3,2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [3]
  4. 4,0 4,1 4,2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  5. 5,0 5,1 «Qwen/Qwen-7B». Hugging Face. [4]
  6. 6,0 6,1 «GitHub - QwenLM/Qwen: The official repo of Qwen». GitHub. [5]
  7. 7,0 7,1 7,2 7,3 7,4 7,5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  8. 8,0 8,1 8,2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  9. 9,0 9,1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
  10. 10,0 10,1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
  11. 11,0 11,1 11,2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
  12. Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.