Qwen

Qwen (кит. 通义千问, Tongyi Qianwen) — это семейство больших языковых моделей (LLM), разработанных подразделением облачных вычислений Alibaba Group — Alibaba Cloud^[1]. Модели Qwen стали значительным вкладом китайского технологического гиганта в область искусственного интеллекта. Первая версия была представлена в бета-режиме в апреле 2023 года, а публичный релиз состоялся в сентябре 2023 года^[1].

Семейство Qwen претерпело стремительную эволюцию, предлагая рынку как решения с открытым исходным кодом, так и проприетарные, более мощные варианты. Ключевые характеристики Qwen включают широкий диапазон размеров моделей (от сотен миллионов до сотен миллиардов параметров), развитые мультимодальные возможности (обработка текста, изображений, аудио и видео), поддержку большого количества языков и инновационные архитектурные решения, такие как смесь экспертов (MoE) и режим "мышления" для решения сложных задач^[2].

На глобальном рынке Qwen позиционируется как серьезный конкурент ведущим моделям от OpenAI, Meta, Anthropic и Mistral AI. Стратегия Alibaba Cloud делает акцент как на высокой производительности, так и на доступности, что выражается в регулярном выпуске открытых моделей, преимущественно под лицензией Apache 2.0^[3].

История и развитие

Развитие семейства Qwen характеризуется быстрыми темпами и стратегическими решениями, направленными как на открытое сообщество, так и на коммерческих пользователей. От первоначальной архитектуры, близкой к LLaMA, Alibaba Cloud перешла к созданию собственных уникальных решений, включая сложные MoE-архитектуры и продвинутые мультимодальные системы.

Основные релизы моделей Qwen
Дата релиза	Модель	Параметры (млрд)	Ключевые особенности	Лицензия
Август 2023	Qwen-7B	7	Первая открытая модель; предобучение на ~2.4 трлн токенов; контекстное окно 8k токенов (в первой версии — 2k, расширено до 8k в сентябрьском обновлении)^[4].	Tongyi Qianwen License (требуется разрешение на коммерческое использование)^[5]
Сентябрь 2023	Qwen-14B	14	Обучение на ~3.0 трлн токенов; улучшена точность на сложных задачах; контекстное окно 8k^[6].	Tongyi Qianwen License
Ноябрь 2023	Qwen-72B	72	Флагманская модель, обученная на ~3.0 трлн токенов; контекст 32k; производительность на уровне лучших моделей того времени.	Tongyi Qianwen License
Ноябрь 2023	Qwen-1.8B	1.8	Компактная модель для локального развёртывания; предобучена на ~2.2 трлн токенов; контекст 32k.	Tongyi Qianwen License
Июнь 2024	Qwen 2	0.5–72	Второе поколение; обучение на ~7 трлн токенов; представлены MoE-модели (57B-A14B); контекст увеличен до 128k (YaRN + Dual Chunk Attention)^[7].	Apache 2.0 (для большинства моделей; 72B — Tongyi Qianwen)
Сентябрь 2024	Qwen 2.5	0.5–72	Промежуточное обновление; семь размеров (0.5, 1.5, 3, 7, 14, 32, 72); датасет расширен до ~18 трлн токенов; улучшены навыки решения задач кода и математики^[8].	Apache 2.0 (кроме 72B и 3B — Qwen Research License)
Ноябрь 2024	QwQ-32B (Preview)	32	Экспериментальная модель «Qwen with Questions» для сложного пошагового рассуждения; контекст 32k.	Apache 2.0 (только веса)
Январь 2025	Qwen2.5-VL	3–72	Мультимодальные модели (текст + изображение); анализ изображений произвольного разрешения; контекст до 128k^[9].	Apache 2.0 (кроме 72B)
Январь 2025	Qwen2.5-Max	н/д	Крупномасштабная MoE-модель, обученная на >20 трлн токенов; по ряду тестов превзошла DeepSeek V3 и GPT-4o; доступна только через API и Qwen Chat^[10].	Проприетарная
Март 2025	QwQ-32B	32	Полноценная reasoning-модель (после ноябрьского Preview); сопоставима с DeepSeek-R1 при значительно меньших вычислительных затратах; контекст 32k, расширяемый до 131k^[11].	Apache 2.0
Март 2025	Qwen2.5-Omni-7B	7	Универсальная мультимодальная модель: вход (текст, изображение, видео, аудио), выход (текст, голос). Архитектура «Thinker-Talker»^[12].	Apache 2.0
Апрель 2025	Qwen 3	0.6–235 (MoE)	Третье поколение (28–29 апреля 2025); обучение на ~36 трлн токенов на 119 языках; плотные модели (0.6–32B) и MoE-варианты (30B-A3B, 235B-A22B); встроенный режим «мышления вслух» (`<think>`); контекст 128k^[13].	Apache 2.0 (все модели)
Июль 2025	Qwen3-Coder	30–480 (MoE)	Специализированная модель для кода; флагман Qwen3-Coder-480B-A35B (480 млрд параметров, 35 активных) и Qwen3-Coder-Flash (30B-A3B); агентное программирование, SOTA среди открытых моделей на SWE-bench Verified; контекст 256k (до 1M)^[14].	Apache 2.0
Сентябрь 2025	Qwen3-Next	80 (MoE)	Сверхразреженная MoE-архитектура (80 млрд параметров, 3 активных) с гибридным вниманием (Gated DeltaNet); ориентирована на максимальную эффективность вывода^[15].	Apache 2.0
Сентябрь 2025	Qwen3-VL	2–235 (MoE)	Мультимодальные модели нового поколения (текст + изображение + видео); объединяют режимы рассуждения и без рассуждения; варианты вплоть до 235B-A22B; Qwen3-VL-2B-Instruct превысила 18 млн загрузок^[16].	Apache 2.0 (открытые варианты)
Сентябрь 2025	Qwen3-Omni	30 (MoE)	Универсальная мультимодальная модель: вход (текст, изображение, аудио, видео), выход (текст и речь); открытый вариант Qwen3-Omni-30B-A3B^[17].	Apache 2.0
Сентябрь 2025	Qwen3-Max	>1000	Проприетарный флагман: >1 трлн параметров, обучение на ~36 трлн токенов; доступен через API; reasoning-вариант Qwen3-Max-Thinking^[18].	Проприетарная
Февраль 2026	Qwen3.5	397 (MoE)	Поколение «нативных мультимодальных агентов»; первый релиз — открытая MoE-модель 397B-A17B (397 млрд параметров, 17 активных, 256 экспертов); архитектура Gated Delta Networks; контекст до 262k; 201 язык; параллельно — проприетарная Qwen3.5-Plus^[19].	Открытые веса (397B-A17B); Plus — проприетарная
Апрель 2026	Qwen3.6	27 / 35 (MoE)	Поколение, ориентированное на «агентов реального мира»; открытые Qwen3.6-35B-A3B (MoE, 3 активных) и Qwen3.6-27B (плотная, флагманский уровень кода); проприетарные Qwen3.6-Plus и Qwen3.6-Max; внедрена функция сохранения цепочки рассуждений (preserve_thinking)^[20].	Apache 2.0 (35B-A3B, 27B); проприетарная (Plus, Max)
Май–июнь 2026	Qwen3.7	н/д	Текущий флагман «агентной эры»: Qwen3.7-Max (только текст, анонсирован 20 мая 2026) и мультимодальная Qwen3.7-Plus (текст/изображение/видео на входе, релиз 1 июня 2026); контекст 1M токенов; обе доступны только через API. Знаменуют сдвиг Qwen к проприетарным релизам^[21].	Проприетарная

Архитектура и технические особенности

Модели Qwen построены на архитектуре трансформера типа "только декодер" (decoder-only), аналогичной LLaMA и GPT. Каждая модель представляет собой авторегрессивный декодер с многоголовым механизмом внимания и блоками feed-forward.

Ключевые архитектурные компоненты

Базовые элементы: В Qwen применяются стандартные для современных LLM решения: нормализация RMSNorm для стабильности обучения и функция активации SwiGLU в полносвязных слоях для улучшения производительности^[4].
Позиционное кодирование: Используется Rotary Positional Embeddings (RoPE) для кодирования информации о позиции токенов, что позволяет эффективно обрабатывать длинные последовательности^[8].
Эффективное внимание: Для ускорения вычислений и экономии памяти в механизме внимания применяется алгоритм FlashAttention^[2].

Плотные модели и Смесь экспертов (MoE)

Семейство Qwen включает модели с двумя типами архитектур:

Плотные модели (Dense): Все параметры модели активны при обработке каждого токена. Примеры: Qwen-72B, Qwen2.5-32B. Эти модели проще в развертывании, но требуют больше вычислительных ресурсов при увеличении размера^[13].
Модели "Смесь экспертов" (Mixture-of-Experts, MoE): В этих моделях вместо одного большого полносвязного слоя используется несколько меньших, специализированных "экспертов". Для каждого токена специальный слой-маршрутизатор (gating network) динамически выбирает небольшое подмножество экспертов для обработки. Это позволяет создавать модели с огромным общим числом параметров при значительно меньших вычислительных затратах на этапе инференса.
- Qwen2-57B-A14B содержит 57 млрд общих параметров, но активирует только 14 млрд при каждом запросе^[7].
- Qwen3-235B-A22B содержит 235 млрд общих параметров, из которых активны 22 млрд^[13].

Инновации для длинного контекста

Поддержка длинного контекста является одной из сильных сторон Qwen.

Первые модели поддерживали до 32k токенов.
В поколении Qwen 2 контекстное окно было увеличено до 128k токенов благодаря методу YaRN (Yet Another RoPE Extension), который позволяет расширять контекст без значительной потери качества^[7].
Экспериментальная модель Qwen2.5-Turbo продемонстрировала работу с контекстом до 1 млн токенов^[2].

"Thinking Mode" в Qwen 3

В третьем поколении Qwen реализован механизм "гибридного мышления" (hybrid thinking). Модель может явно формировать цепочку рассуждений (chain-of-thought) перед выдачей окончательного ответа.

По умолчанию Qwen 3 встраивает в вывод специальный блок <think>...</think>, где показывает пошаговое логическое рассуждение.
Пользователь может отключить этот режим, добавив команду /no_think в запрос.

Этот механизм улучшает способность модели решать сложные задачи, требующие многоэтапного вывода^[3].

Многоязычный токенизатор

Qwen использует расширенный словарь токенов (около 151 000 токенов), основанный на BPE-словаре OpenAI GPT-4 (cl100k) с дополнительной оптимизацией под китайский язык и другие языки. Это позволяет эффективно кодировать иероглифы, латиницу и программный код, улучшая мультиязычные способности модели^[4].

Мультимодальные возможности

Семейство Qwen активно развивается в направлении мультимодальности, предлагая модели, способные работать с различными типами данных:

Qwen-VL: Объединяет визуальный трансформер (для обработки изображений) с языковой моделью, позволяя отвечать на вопросы по изображениям и генерировать описания. Версия Qwen2.5-VL способна анализировать изображения произвольного разрешения и извлекать структурированные данные (например, из таблиц и форм)^[9].
Qwen-Audio: Специализированная модель для обработки аудиоинформации, способная распознавать и генерировать речь, музыку и другие звуки^[22].
Qwen2.5-Omni: Универсальная end-to-end мультимодальная модель, которая одновременно воспринимает текст, изображения, аудио и видео, а генерирует ответы в виде текста или естественной речи в потоковом режиме. В её основе лежит архитектура "Thinker-Talker", где "Thinker" (LLM) генерирует текстовый контент, а "Talker" (двухдорожечная авторегрессионная модель) синтезирует аудио^[12].
Специализированные модели: Также выпущены модели, ориентированные на конкретные задачи, такие как Qwen-Coder (программирование) и Qwen-Math (решение математических задач).

Обучающие данные и масштаб

Модели Qwen обучаются на чрезвычайно больших корпусах данных, которые включают тексты из интернета, книги, научные статьи, программный код и математические данные.

Qwen 1.0 (7B): ~2.4 трлн токенов.
Qwen 1.0 (72B): ~3.0 трлн токенов.
Qwen 2.0: ~7 трлн токенов.
Qwen 2.5: ~18 трлн токенов.
Qwen 3.0: ~36 трлн токенов, охватывающих 119 языков и диалектов.

Для повышения качества данных применяются продвинутые методы фильтрации и генерация высококачественных синтетических данных, особенно для таких доменов, как математика и программирование^[8].

Лицензирование и доступность

Политика лицензирования моделей Qwen эволюционировала с течением времени.

Ранние модели (Qwen 1): Распространялись под собственной лицензией Tongyi Qianwen License. Она разрешала академическое использование, но требовала подачи заявки и получения отдельного разрешения для коммерческого применения^[5].
Поздние модели (Qwen 2, 2.5, 3): Начиная со второго поколения, разработчики перешли к более открытой политике. Большинство новых моделей были выпущены под разрешительной лицензией Apache License 2.0, что позволяет свободно использовать их как в научных, так и в коммерческих проектах^[7]. С выходом семейства Qwen 3 все модели этого поколения стали полностью открытыми под Apache 2.0 без дополнительных ограничений^[3].
Проприетарные и ограниченные модели: Несмотря на общую тенденцию к открытости, самые крупные или стратегически важные модели (например, Qwen2.5-Max, Qwen2.5-VL-72B) остаются проприетарными и доступны через платные API Alibaba Cloud или распространяются под более строгими исследовательскими лицензиями.

Экосистема и применение

Семейство Qwen интегрируется в различные продукты и платформы, формируя вокруг себя развивающуюся экосистему.

Платформы Alibaba Cloud: Доступ к моделям, особенно к наиболее мощным проприетарным версиям, предоставляется через API-интерфейсы Model Studio. Платформа PAI-EAS (Platform for AI - Elastic Algorithm Service) позволяет развертывать, дообучать (fine-tuning) и кастомизировать модели Qwen.
Сообщество Open Source: Открытые версии моделей, их веса и код активно размещаются на платформах Hugging Face, ModelScope и GitHub^[6], что способствует их широкому распространению и использованию исследователями и разработчиками по всему миру.
Применения: Модели используются для широкого спектра задач, от генерации контента и анализа данных до создания ИИ-агентов. Например, модели Qwen3 поддерживают протокол Model Context Protocol (MCP), который позволяет им более эффективно взаимодействовать с другими приложениями и инструментами.

См. также

Ссылки

Литература

Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

Примечания

↑ ^1,0 ^1,1 «Qwen». В Wikipedia [1]
↑ ^2,0 ^2,1 ^2,2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [2]
↑ ^3,0 ^3,1 ^3,2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [3]
↑ ^4,0 ^4,1 ^4,2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
↑ ^5,0 ^5,1 «Qwen/Qwen-7B». Hugging Face. [4]
↑ ^6,0 ^6,1 «GitHub — QwenLM/Qwen: The official repo of Qwen». GitHub. [5]
↑ ^7,0 ^7,1 ^7,2 ^7,3 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
↑ ^8,0 ^8,1 ^8,2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
↑ ^9,0 ^9,1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
↑ «Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model». Qwen (29 января 2025). [6]
↑ «Qwen/QwQ-32B». Hugging Face (5 марта 2025). [7]
↑ ^12,0 ^12,1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
↑ ^13,0 ^13,1 ^13,2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
↑ «Qwen/Qwen3-Coder-480B-A35B-Instruct». Hugging Face (24 июля 2025). [8]
↑ «Qwen/Qwen3-Next-80B-A3B-Instruct». Hugging Face (11 сентября 2025). [9]
↑ «Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action». Qwen (22 сентября 2025). [10]
↑ «Qwen/Qwen3-Omni-30B-A3B-Instruct». Hugging Face (22 сентября 2025). [11]
↑ «Qwen3-Max: Just Scale it». Qwen (24 сентября 2025). [12]
↑ «Qwen3.5: Towards Native Multimodal Agents». Qwen (16 февраля 2026). [13]
↑ «Qwen/Qwen3.6-35B-A3B». Hugging Face (15 апреля 2026). [14]; «Qwen3.6-Plus: Towards Real World Agents». Qwen. [15]
↑ «Qwen Introduces Qwen3.7-Max…». MarkTechPost (21 мая 2026); «Alibaba's Qwen3.7-Plus supports text, video and imagery inputs…». VentureBeat (2 июня 2026). [16]
↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.

[wikipedia-qwen-1] 1,0 ^1,1 «Qwen». В Wikipedia [1]

[inferless-guide-2] 2,0 ^2,1 ^2,2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [2]

[qwen3-release-analysis-3] 3,0 ^3,1 ^3,2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [3]

[qwen1-tech-report-4] 4,0 ^4,1 ^4,2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.

[qwen7b-hf-5] 5,0 ^5,1 «Qwen/Qwen-7B». Hugging Face. [4]

[github-qwenlm-6] 6,0 ^6,1 «GitHub — QwenLM/Qwen: The official repo of Qwen». GitHub. [5]

[qwen2-tech-report-7] 7,0 ^7,1 ^7,2 ^7,3 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.

[qwen2.5-tech-report-8] 8,0 ^8,1 ^8,2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.

[qwen2.5-vl-tech-report-9] 9,0 ^9,1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.

[qwen2.5-max-10] «Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model». Qwen (29 января 2025). [6]

[qwq-32b-11] «Qwen/QwQ-32B». Hugging Face (5 марта 2025). [7]

[qwen2.5-omni-tech-report-12] 12,0 ^12,1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.

[qwen3-tech-report-13] 13,0 ^13,1 ^13,2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

[qwen3-coder-14] «Qwen/Qwen3-Coder-480B-A35B-Instruct». Hugging Face (24 июля 2025). [8]

[qwen3-next-15] «Qwen/Qwen3-Next-80B-A3B-Instruct». Hugging Face (11 сентября 2025). [9]

[qwen3-vl-16] «Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action». Qwen (22 сентября 2025). [10]

[qwen3-omni-17] «Qwen/Qwen3-Omni-30B-A3B-Instruct». Hugging Face (22 сентября 2025). [11]

[qwen3-max-18] «Qwen3-Max: Just Scale it». Qwen (24 сентября 2025). [12]

[qwen3.5-19] «Qwen3.5: Towards Native Multimodal Agents». Qwen (16 февраля 2026). [13]

[qwen3.6-20] «Qwen/Qwen3.6-35B-A3B». Hugging Face (15 апреля 2026). [14]; «Qwen3.6-Plus: Towards Real World Agents». Qwen. [15]

[qwen3.7-21] «Qwen Introduces Qwen3.7-Max…». MarkTechPost (21 мая 2026); «Alibaba's Qwen3.7-Plus supports text, video and imagery inputs…». VentureBeat (2 июня 2026). [16]

[22] Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Qwen

Содержание

История и развитие

Архитектура и технические особенности

Ключевые архитектурные компоненты

Плотные модели и Смесь экспертов (MoE)

Инновации для длинного контекста

"Thinking Mode" в Qwen 3

Многоязычный токенизатор

Мультимодальные возможности

Обучающие данные и масштаб

Лицензирование и доступность

Экосистема и применение

См. также

Ссылки

Литература

Примечания

Навигация

Qwen

История и развитие

Архитектура и технические особенности

Ключевые архитектурные компоненты

Плотные модели и Смесь экспертов (MoE)

Инновации для длинного контекста

"Thinking Mode" в Qwen 3

Многоязычный токенизатор

Мультимодальные возможности

Обучающие данные и масштаб

Лицензирование и доступность

Экосистема и применение

См. также

Ссылки

Литература

Примечания

Навигация

Поиск