Qwen (Alibaba) (ES)
Qwen (en chino: 通义千问, Tongyi Qianwen) es una familia de grandes modelos de lenguaje (LLM) desarrollados por la división de computación en la nube de Alibaba Group, Alibaba Cloud[1]. Los modelos Qwen se han convertido en una contribución significativa del gigante tecnológico chino en el campo de la inteligencia artificial. La primera versión fue presentada en modo beta en abril de 2023, y su lanzamiento público tuvo lugar en septiembre de 2023[1].
La familia Qwen ha experimentado una rápida evolución, ofreciendo al mercado tanto soluciones de código abierto como variantes propietarias más potentes. Las características clave de Qwen incluyen una amplia gama de tamaños de modelos (desde cientos de millones hasta cientos de miles de millones de parámetros), capacidades multimodales avanzadas (procesamiento de texto, imágenes, audio y video), soporte para una gran cantidad de idiomas y soluciones arquitectónicas innovadoras, como la mezcla de expertos (MoE) y un modo de "pensamiento" para resolver tareas complejas[2].
En el mercado global, Qwen se posiciona como un competidor serio frente a los principales modelos de OpenAI, Meta, Anthropic y Mistral AI. La estrategia de Alibaba Cloud pone énfasis tanto en el alto rendimiento como en la accesibilidad, lo que se refleja en el lanzamiento regular de modelos de código abierto, predominantemente bajo la licencia Apache 2.0[3].
Historia y desarrollo
El desarrollo de la familia Qwen se caracteriza por un ritmo rápido y decisiones estratégicas dirigidas tanto a la comunidad de código abierto como a los usuarios comerciales. Desde una arquitectura inicial similar a LLaMA, Alibaba Cloud ha pasado a crear sus propias soluciones únicas, incluyendo arquitecturas MoE complejas y sistemas multimodales avanzados.
| Fecha de lanzamiento | Modelo | Parámetros (miles de millones) | Características clave | Licencia |
|---|---|---|---|---|
| Agosto de 2023 | Qwen-7B | 7 | Primer modelo de código abierto; preentrenado con ~2.4 billones de tokens; ventana de contexto de 32k tokens[4]. | Licencia Tongyi Qianwen (requiere permiso para uso comercial)[5] |
| Septiembre de 2023 | Qwen-14B | 14 | Entrenado con ~3.0 billones de tokens; precisión mejorada en tareas complejas; ventana de contexto de 8k[6]. | Licencia Tongyi Qianwen |
| Noviembre de 2023 | Qwen-72B | 72 | Modelo insignia, entrenado con ~3.0 billones de tokens; contexto de 32k; rendimiento a la par de los mejores modelos de su tiempo. | Licencia Tongyi Qianwen |
| Noviembre de 2023 | Qwen-1.8B | 1.8 | Modelo compacto para despliegue local; preentrenado con ~2.2 billones de tokens; contexto de 32k. | Licencia Tongyi Qianwen |
| Junio/Septiembre de 2024 | Qwen 2 | 0.5–72 | Segunda generación; entrenamiento con ~7 billones de tokens; se introducen modelos MoE (p. ej., 57B-A14B); contexto ampliado a 128k con tecnología YaRN[7]. | Apache 2.0 (para la mayoría de los modelos) |
| Septiembre de 2024 | Qwen 2.5 | 3–32 | Actualización intermedia; conjunto de datos ampliado a ~18 billones de tokens; habilidades mejoradas para resolver problemas de código y matemáticas[8]. | Apache 2.0 (excepto 72B) |
| Noviembre de 2024 | QwQ-32B (Preview) | 32 | Modelo experimental "Qwen with Questions" para razonamiento complejo paso a paso; contexto de 32k. | Apache 2.0 (solo pesos) |
| Enero de 2025 | Qwen2.5-VL | 3–72 | Modelos multimodales (texto + imagen); análisis de imágenes de resolución arbitraria; contexto de hasta 128k[9]. | Apache 2.0 (excepto 72B) |
| Marzo de 2025 | Qwen2.5-Omni-7B | 7 | Modelo multimodal universal: entrada (texto, imagen, video, audio), salida (texto, voz). Arquitectura "Thinker-Talker"[10]. | Apache 2.0 |
| Abril de 2025 | Qwen 3 | 0.6–235 (MoE) | Tercera generación; entrenamiento con ~36 billones de tokens en 119 idiomas; variantes MoE (30B-A3B, 235B-A22B); modo integrado de "pensamiento en voz alta" (<think>); contexto de 128k[11].
|
Apache 2.0 (todos los modelos) |
Arquitectura y características técnicas
Los modelos Qwen están construidos sobre una arquitectura de transformador de tipo "solo decodificador" (decoder-only), similar a LLaMA y GPT. Cada modelo es un decodificador autorregresivo con un mecanismo de atención de múltiples cabezales y bloques feed-forward.
Componentes clave de la arquitectura
- Elementos base: En Qwen se utilizan soluciones estándar para los LLM modernos: normalización RMSNorm para la estabilidad del entrenamiento y la función de activación SwiGLU en las capas totalmente conectadas para mejorar el rendimiento[4].
- Codificación posicional: Se utiliza Rotary Positional Embeddings (RoPE) para codificar la información de la posición de los tokens, lo que permite procesar eficientemente secuencias largas[8].
- Atención eficiente: Para acelerar los cálculos y ahorrar memoria en el mecanismo de atención, se utiliza el algoritmo FlashAttention[2].
Modelos densos y Mezcla de Expertos (MoE)
La familia Qwen incluye modelos con dos tipos de arquitecturas:
- Modelos densos (Dense): Todos los parámetros del modelo están activos al procesar cada token. Ejemplos: Qwen-72B, Qwen2.5-32B. Estos modelos son más sencillos de desplegar, pero requieren más recursos computacionales a medida que aumenta su tamaño[11].
- Modelos de "Mezcla de Expertos" (Mixture-of-Experts, MoE): En estos modelos, en lugar de una gran capa totalmente conectada, se utilizan varios "expertos" más pequeños y especializados. Para cada token, una capa especial de enrutamiento (gating network) selecciona dinámicamente un pequeño subconjunto de expertos para el procesamiento. Esto permite crear modelos con un número total de parámetros enorme, pero con costos computacionales significativamente menores en la etapa de inferencia.
Innovaciones para el contexto largo
El soporte para un contexto largo es una de las fortalezas de Qwen.
- Los primeros modelos admitían hasta 32k tokens.
- En la generación Qwen 2, la ventana de contexto se amplió a 128k tokens gracias al método YaRN (Yet Another RoPE Extension), que permite extender el contexto sin una pérdida significativa de calidad[7].
- El modelo experimental Qwen2.5-Turbo demostró funcionar con un contexto de hasta 1 millón de tokens[2].
"Modo de Pensamiento" en Qwen 3
En la tercera generación de Qwen se implementó un mecanismo de "pensamiento híbrido" (hybrid thinking). El modelo puede formular explícitamente una cadena de pensamiento (chain-of-thought) antes de dar la respuesta final.
- Por defecto, Qwen 3 inserta en su salida un bloque especial
<think>...</think>, donde muestra el razonamiento lógico paso a paso. - El usuario puede desactivar este modo añadiendo el comando
/no_thinka la solicitud.
Este mecanismo mejora la capacidad del modelo para resolver tareas complejas que requieren una inferencia de varios pasos[3].
Tokenizador multilingüe
Qwen utiliza un vocabulario de tokens ampliado (aproximadamente 151,000 tokens), basado en el vocabulario BPE de GPT-4 de OpenAI (cl100k) con optimización adicional para el chino y otros idiomas. Esto permite codificar eficientemente caracteres chinos, latinos y código de programación, mejorando las capacidades multilingües del modelo[4].
Capacidades multimodales
La familia Qwen se está desarrollando activamente en la dirección de la multimodalidad, ofreciendo modelos capaces de trabajar con diferentes tipos de datos:
- Qwen-VL: Combina un transformador visual (para procesar imágenes) con un modelo de lenguaje, lo que le permite responder preguntas sobre imágenes y generar descripciones. La versión Qwen2.5-VL es capaz de analizar imágenes de resolución arbitraria y extraer datos estructurados (por ejemplo, de tablas y formularios)[9].
- Qwen-Audio: Un modelo especializado para el procesamiento de información de audio, capaz de reconocer y generar voz, música y otros sonidos[12].
- Qwen2.5-Omni: Un modelo multimodal universal de extremo a extremo que percibe simultáneamente texto, imágenes, audio y video, y genera respuestas en forma de texto o voz natural en modo de transmisión (streaming). Se basa en la arquitectura "Thinker-Talker", donde el "Thinker" (LLM) genera el contenido de texto, y el "Talker" (un modelo autorregresivo de dos pistas) sintetiza el audio[10].
- Modelos especializados: También se han lanzado modelos orientados a tareas específicas, como Qwen-Coder (programación) y Qwen-Math (resolución de problemas matemáticos).
Datos de entrenamiento y escala
Los modelos Qwen se entrenan con corpus de datos extremadamente grandes, que incluyen textos de internet, libros, artículos científicos, código de programación y datos matemáticos.
- Qwen 1.0 (7B): ~2.4 billones de tokens.
- Qwen 1.0 (72B): ~3.0 billones de tokens.
- Qwen 2.0: ~7 billones de tokens.
- Qwen 2.5: ~18 billones de tokens.
- Qwen 3.0: ~36 billones de tokens, que abarcan 119 idiomas y dialectos.
Para mejorar la calidad de los datos, se aplican métodos avanzados de filtrado y se generan datos sintéticos de alta calidad, especialmente para dominios como las matemáticas y la programación[8].
Licenciamiento y disponibilidad
La política de licenciamiento de los modelos Qwen ha evolucionado con el tiempo.
- Modelos tempranos (Qwen 1): Se distribuían bajo su propia licencia, la Licencia Tongyi Qianwen. Permitía el uso académico, pero requería presentar una solicitud y obtener un permiso por separado para su uso comercial[5].
- Modelos posteriores (Qwen 2, 2.5, 3): A partir de la segunda generación, los desarrolladores adoptaron una política más abierta. La mayoría de los nuevos modelos se lanzaron bajo la licencia permisiva Apache License 2.0, lo que permite su uso libre tanto en proyectos científicos como comerciales[7]. Con el lanzamiento de la familia Qwen 3, todos los modelos de esta generación se volvieron completamente de código abierto bajo Apache 2.0 sin restricciones adicionales[3].
- Modelos propietarios y restringidos: A pesar de la tendencia general hacia la apertura, los modelos más grandes o estratégicamente importantes (por ejemplo, Qwen2.5-Max, Qwen2.5-VL-72B) siguen siendo propietarios y están disponibles a través de las API de pago de Alibaba Cloud o se distribuyen bajo licencias de investigación más estrictas.
Comparación con competidores y rendimiento
Los modelos Qwen se posicionan activamente en un mercado altamente competitivo y se comparan regularmente con los desarrollos de las principales empresas mundiales.
- vs. Llama (Meta): En los informes técnicos, Qwen a menudo demuestra superioridad sobre los modelos Llama de tamaño similar. Por ejemplo, Qwen2-72B muestra mejores resultados en los benchmarks MMLU, HumanEval y GSM8K en comparación con Llama-3-70B.
- vs. GPT (OpenAI): Los modelos insignia de Qwen buscan cerrar la brecha con los modelos GPT. Alibaba Cloud afirma que Qwen2.5-Max supera a GPT-4o en algunos benchmarks académicos, y Qwen2-72B-Instruct demuestra ser competitivo con GPT-4-Turbo.
- vs. Mistral AI: Ambas compañías ponen énfasis en los modelos de código abierto. Las pruebas muestran que Qwen2-72B supera a Mixtral-8x22B en benchmarks clave[7].
Resultados en benchmarks
| Modelo | MMLU (5-shot) | HumanEval (0-shot) | GSM8K (8-shot) | MT-Bench |
|---|---|---|---|---|
| Qwen2-72B (base) | 84.2 | 64.6 | 89.5 | N/A |
| Qwen2-72B-Instruct | 82.3 | 86.0 | 93.2 | 9.12 |
| Llama-3-70B (base) | 79.5 | 48.2 | 83.0 | N/A |
| Llama-3-70B-Instruct | 82.0 | 81.7 | 93.0 | 8.95 |
| Mixtral-8x22B (base) | 77.8 | 46.3 | 83.7 | N/A |
| Mixtral-8x22B-Instruct | 74.0 | 73.8 | 89.1 | 8.66 |
Nota: N/A — no aplicable o datos no disponibles en las fuentes citadas.
Ecosistema y aplicación
La familia Qwen se integra en diversos productos y plataformas, formando un ecosistema en desarrollo a su alrededor.
- Plataformas de Alibaba Cloud: El acceso a los modelos, especialmente a las versiones propietarias más potentes, se proporciona a través de las interfaces API de Model Studio. La plataforma PAI-EAS (Platform for AI - Elastic Algorithm Service) permite desplegar, reentrenar (fine-tuning) y personalizar los modelos Qwen.
- Comunidad de código abierto: Las versiones de código abierto de los modelos, sus pesos y su código se publican activamente en plataformas como Hugging Face, ModelScope y GitHub[6], lo que promueve su amplia difusión y uso por parte de investigadores y desarrolladores de todo el mundo.
- Aplicaciones: Los modelos se utilizan para una amplia gama de tareas, desde la generación de contenido y el análisis de datos hasta la creación de agentes de IA. Por ejemplo, los modelos Qwen3 son compatibles con el protocolo Model Context Protocol (MCP), que les permite interactuar de manera más eficiente con otras aplicaciones y herramientas.
Bibliografía
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
Enlaces
- Chatbot oficial de Qwen
- Documentación oficial
- Repositorio principal en GitHub
- Perfil en Hugging Face
- Perfil en ModelScope
Bibliografía
- Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
Notas
- ↑ 1.0 1.1 «Qwen». En Wikipedia [1]
- ↑ 2.0 2.1 2.2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [2]
- ↑ 3.0 3.1 3.2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [3]
- ↑ 4.0 4.1 4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- ↑ 5.0 5.1 «Qwen/Qwen-7B». Hugging Face. [4]
- ↑ 6.0 6.1 «GitHub - QwenLM/Qwen: The official repo of Qwen». GitHub. [5]
- ↑ 7.0 7.1 7.2 7.3 7.4 7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- ↑ 8.0 8.1 8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- ↑ 9.0 9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- ↑ 10.0 10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
- ↑ 11.0 11.1 11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- ↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.