Qwen
Qwen (кит. 通义千问, Tongyi Qianwen) — это семейство больших языковых моделей (LLM), разработанных подразделением облачных вычислений Alibaba Group — Alibaba Cloud[1]. Модели Qwen стали значительным вкладом китайского технологического гиганта в область искусственного интеллекта. Первая версия была представлена в бета-режиме в апреле 2023 года, а публичный релиз состоялся в сентябре 2023 года[1].
Семейство Qwen претерпело стремительную эволюцию, предлагая рынку как решения с открытым исходным кодом, так и проприетарные, более мощные варианты. Ключевые характеристики Qwen включают широкий диапазон размеров моделей (от сотен миллионов до сотен миллиардов параметров), развитые мультимодальные возможности (обработка текста, изображений, аудио и видео), поддержку большого количества языков и инновационные архитектурные решения, такие как смесь экспертов (MoE) и режим "мышления" для решения сложных задач[2].
На глобальном рынке Qwen позиционируется как серьезный конкурент ведущим моделям от OpenAI, Meta, Anthropic и Mistral AI. Стратегия Alibaba Cloud делает акцент как на высокой производительности, так и на доступности, что выражается в регулярном выпуске открытых моделей, преимущественно под лицензией Apache 2.0[3].
История и развитие
Развитие семейства Qwen характеризуется быстрыми темпами и стратегическими решениями, направленными как на открытое сообщество, так и на коммерческих пользователей. От первоначальной архитектуры, близкой к LLaMA, Alibaba Cloud перешла к созданию собственных уникальных решений, включая сложные MoE-архитектуры и продвинутые мультимодальные системы.
| Дата релиза | Модель | Параметры (млрд) | Ключевые особенности | Лицензия |
|---|---|---|---|---|
| Август 2023 | Qwen-7B | 7 | Первая открытая модель; предобучение на ~2.4 трлн токенов; контекстное окно 32k токенов[4]. | Tongyi Qianwen License (требуется разрешение на коммерческое использование)[5] |
| Сентябрь 2023 | Qwen-14B | 14 | Обучение на ~3.0 трлн токенов; улучшена точность на сложных задачах; контекстное окно 8k[6]. | Tongyi Qianwen License |
| Ноябрь 2023 | Qwen-72B | 72 | Флагманская модель, обученная на ~3.0 трлн токенов; контекст 32k; производительность на уровне лучших моделей того времени. | Tongyi Qianwen License |
| Ноябрь 2023 | Qwen-1.8B | 1.8 | Компактная модель для локального развертывания; предобучена на ~2.2 трлн токенов; контекст 32k. | Tongyi Qianwen License |
| Июнь/Сентябрь 2024 | Qwen 2 | 0.5–72 | Второе поколение; обучение на ~7 трлн токенов; представлены MoE-модели (например, 57B-A14B); контекст увеличен до 128k с технологией YaRN[7]. | Apache 2.0 (для большинства моделей) |
| Сентябрь 2024 | Qwen 2.5 | 3–32 | Промежуточное обновление; датасет расширен до ~18 трлн токенов; улучшены навыки решения задач кода и математики[8]. | Apache 2.0 (кроме 72B) |
| Ноябрь 2024 | QwQ-32B (Preview) | 32 | Экспериментальная модель "Qwen with Questions" для сложного пошагового рассуждения; контекст 32k. | Apache 2.0 (только веса) |
| Январь 2025 | Qwen2.5-VL | 3–72 | Мультимодальные модели (текст + изображение); анализ изображений произвольного разрешения; контекст до 128k[9]. | Apache 2.0 (кроме 72B) |
| Март 2025 | Qwen2.5-Omni-7B | 7 | Универсальная мультимодальная модель: вход (текст, изображение, видео, аудио), выход (текст, голос). Архитектура "Thinker-Talker"[10]. | Apache 2.0 |
| Апрель 2025 | Qwen 3 | 0.6–235 (MoE) | Третье поколение; обучение на ~36 трлн токенов на 119 языках; MoE-варианты (30B-A3B, 235B-A22B); встроенный режим "мышления вслух" (<think>); контекст 128k[11].
|
Apache 2.0 (все модели) |
Архитектура и технические особенности
Модели Qwen построены на архитектуре трансформера типа "только декодер" (decoder-only), аналогичной LLaMA и GPT. Каждая модель представляет собой авторегрессивный декодер с многоголовым механизмом внимания и блоками feed-forward.
Ключевые архитектурные компоненты
- Базовые элементы: В Qwen применяются стандартные для современных LLM решения: нормализация RMSNorm для стабильности обучения и функция активации SwiGLU в полносвязных слоях для улучшения производительности[4].
- Позиционное кодирование: Используется Rotary Positional Embeddings (RoPE) для кодирования информации о позиции токенов, что позволяет эффективно обрабатывать длинные последовательности[8].
- Эффективное внимание: Для ускорения вычислений и экономии памяти в механизме внимания применяется алгоритм FlashAttention[2].
Плотные модели и Смесь экспертов (MoE)
Семейство Qwen включает модели с двумя типами архитектур:
- Плотные модели (Dense): Все параметры модели активны при обработке каждого токена. Примеры: Qwen-72B, Qwen2.5-32B. Эти модели проще в развертывании, но требуют больше вычислительных ресурсов при увеличении размера[11].
- Модели "Смесь экспертов" (Mixture-of-Experts, MoE): В этих моделях вместо одного большого полносвязного слоя используется несколько меньших, специализированных "экспертов". Для каждого токена специальный слой-маршрутизатор (gating network) динамически выбирает небольшое подмножество экспертов для обработки. Это позволяет создавать модели с огромным общим числом параметров при значительно меньших вычислительных затратах на этапе инференса.
Инновации для длинного контекста
Поддержка длинного контекста является одной из сильных сторон Qwen.
- Первые модели поддерживали до 32k токенов.
- В поколении Qwen 2 контекстное окно было увеличено до 128k токенов благодаря методу YaRN (Yet Another RoPE Extension), который позволяет расширять контекст без значительной потери качества[7].
- Экспериментальная модель Qwen2.5-Turbo продемонстрировала работу с контекстом до 1 млн токенов[2].
"Thinking Mode" в Qwen 3
В третьем поколении Qwen реализован механизм "гибридного мышления" (hybrid thinking). Модель может явно формировать цепочку рассуждений (chain-of-thought) перед выдачей окончательного ответа.
- По умолчанию Qwen 3 встраивает в вывод специальный блок
<think>...</think>, где показывает пошаговое логическое рассуждение. - Пользователь может отключить этот режим, добавив команду
/no_thinkв запрос.
Этот механизм улучшает способность модели решать сложные задачи, требующие многоэтапного вывода[3].
Многоязычный токенизатор
Qwen использует расширенный словарь токенов (около 151 000 токенов), основанный на BPE-словаре OpenAI GPT-4 (cl100k) с дополнительной оптимизацией под китайский язык и другие языки. Это позволяет эффективно кодировать иероглифы, латиницу и программный код, улучшая мультиязычные способности модели[4].
Мультимодальные возможности
Семейство Qwen активно развивается в направлении мультимодальности, предлагая модели, способные работать с различными типами данных:
- Qwen-VL: Объединяет визуальный трансформер (для обработки изображений) с языковой моделью, позволяя отвечать на вопросы по изображениям и генерировать описания. Версия Qwen2.5-VL способна анализировать изображения произвольного разрешения и извлекать структурированные данные (например, из таблиц и форм)[9].
- Qwen-Audio: Специализированная модель для обработки аудиоинформации, способная распознавать и генерировать речь, музыку и другие звуки[12].
- Qwen2.5-Omni: Универсальная end-to-end мультимодальная модель, которая одновременно воспринимает текст, изображения, аудио и видео, а генерирует ответы в виде текста или естественной речи в потоковом режиме. В её основе лежит архитектура "Thinker-Talker", где "Thinker" (LLM) генерирует текстовый контент, а "Talker" (двухдорожечная авторегрессионная модель) синтезирует аудио[10].
- Специализированные модели: Также выпущены модели, ориентированные на конкретные задачи, такие как Qwen-Coder (программирование) и Qwen-Math (решение математических задач).
Обучающие данные и масштаб
Модели Qwen обучаются на чрезвычайно больших корпусах данных, которые включают тексты из интернета, книги, научные статьи, программный код и математические данные.
- Qwen 1.0 (7B): ~2.4 трлн токенов.
- Qwen 1.0 (72B): ~3.0 трлн токенов.
- Qwen 2.0: ~7 трлн токенов.
- Qwen 2.5: ~18 трлн токенов.
- Qwen 3.0: ~36 трлн токенов, охватывающих 119 языков и диалектов.
Для повышения качества данных применяются продвинутые методы фильтрации и генерация высококачественных синтетических данных, особенно для таких доменов, как математика и программирование[8].
Лицензирование и доступность
Политика лицензирования моделей Qwen эволюционировала с течением времени.
- Ранние модели (Qwen 1): Распространялись под собственной лицензией Tongyi Qianwen License. Она разрешала академическое использование, но требовала подачи заявки и получения отдельного разрешения для коммерческого применения[5].
- Поздние модели (Qwen 2, 2.5, 3): Начиная со второго поколения, разработчики перешли к более открытой политике. Большинство новых моделей были выпущены под разрешительной лицензией Apache License 2.0, что позволяет свободно использовать их как в научных, так и в коммерческих проектах[7]. С выходом семейства Qwen 3 все модели этого поколения стали полностью открытыми под Apache 2.0 без дополнительных ограничений[3].
- Проприетарные и ограниченные модели: Несмотря на общую тенденцию к открытости, самые крупные или стратегически важные модели (например, Qwen2.5-Max, Qwen2.5-VL-72B) остаются проприетарными и доступны через платные API Alibaba Cloud или распространяются под более строгими исследовательскими лицензиями.
Сравнение с конкурентами и производительность
Модели Qwen активно позиционируются на высококонкурентном рынке и регулярно сравниваются с разработками ведущих мировых компаний.
- vs. Llama (Meta): В технических отчетах Qwen часто демонстрирует превосходство над моделями Llama аналогичного размера. Например, Qwen2-72B показывает лучшие результаты на бенчмарках MMLU, HumanEval и GSM8K по сравнению с Llama-3-70B.
- vs. GPT (OpenAI): Флагманские модели Qwen стремятся сократить разрыв с моделями GPT. Alibaba Cloud заявляет, что Qwen2.5-Max превосходит GPT-4o по некоторым академическим бенчмаркам, а Qwen2-72B-Instruct демонстрирует конкурентоспособность с GPT-4-Turbo.
- vs. Mistral AI: Обе компании делают акцент на открытых моделях. Тесты показывают, что Qwen2-72B превосходит Mixtral-8x22B на ключевых бенчмарках[7].
Результаты на бенчмарках
| Модель | MMLU (5-shot) | HumanEval (0-shot) | GSM8K (8-shot) | MT-Bench |
|---|---|---|---|---|
| Qwen2-72B (базовая) | 84.2 | 64.6 | 89.5 | Н/П |
| Qwen2-72B-Instruct | 82.3 | 86.0 | 93.2 | 9.12 |
| Llama-3-70B (базовая) | 79.5 | 48.2 | 83.0 | Н/П |
| Llama-3-70B-Instruct | 82.0 | 81.7 | 93.0 | 8.95 |
| Mixtral-8x22B (базовая) | 77.8 | 46.3 | 83.7 | Н/П |
| Mixtral-8x22B-Instruct | 74.0 | 73.8 | 89.1 | 8.66 |
Примечание: Н/П — не применимо или данные отсутствуют в указанных источниках.
Экосистема и применение
Семейство Qwen интегрируется в различные продукты и платформы, формируя вокруг себя развивающуюся экосистему.
- Платформы Alibaba Cloud: Доступ к моделям, особенно к наиболее мощным проприетарным версиям, предоставляется через API-интерфейсы Model Studio. Платформа PAI-EAS (Platform for AI - Elastic Algorithm Service) позволяет развертывать, дообучать (fine-tuning) и кастомизировать модели Qwen.
- Сообщество Open Source: Открытые версии моделей, их веса и код активно размещаются на платформах Hugging Face, ModelScope и GitHub[6], что способствует их широкому распространению и использованию исследователями и разработчиками по всему миру.
- Применения: Модели используются для широкого спектра задач, от генерации контента и анализа данных до создания ИИ-агентов. Например, модели Qwen3 поддерживают протокол Model Context Protocol (MCP), который позволяет им более эффективно взаимодействовать с другими приложениями и инструментами.
Литература
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
Ссылки
- Официальный чат-бот Qwen
- Официальная документация
- Основной репозиторий на GitHub
- Профиль на Hugging Face
- Профиль на ModelScope
Литература
- Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
Примечания
- ↑ 1,0 1,1 «Qwen». В Wikipedia [1]
- ↑ 2,0 2,1 2,2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [2]
- ↑ 3,0 3,1 3,2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [3]
- ↑ 4,0 4,1 4,2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- ↑ 5,0 5,1 «Qwen/Qwen-7B». Hugging Face. [4]
- ↑ 6,0 6,1 «GitHub - QwenLM/Qwen: The official repo of Qwen». GitHub. [5]
- ↑ 7,0 7,1 7,2 7,3 7,4 7,5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- ↑ 8,0 8,1 8,2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- ↑ 9,0 9,1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- ↑ 10,0 10,1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
- ↑ 11,0 11,1 11,2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- ↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.