Qwen (Alibaba) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

Qwen (chinês: 通义千问, Tongyi Qianwen) é uma família de grandes modelos de linguagem (LLMs) desenvolvida pela divisão de computação em nuvem do Alibaba Group — a Alibaba Cloud[1]. Os modelos Qwen representam uma contribuição significativa do gigante tecnológico chinês para o campo da inteligência artificial. A primeira versão foi apresentada em modo beta em abril de 2023, com o lançamento público ocorrendo em setembro de 2023[1].

A família Qwen passou por uma rápida evolução, oferecendo ao mercado tanto soluções de código aberto quanto variantes proprietárias mais poderosas. As principais características do Qwen incluem uma ampla gama de tamanhos de modelo (de centenas de milhões a centenas de bilhões de parâmetros), capacidades multimodais avançadas (processamento de texto, imagens, áudio e vídeo), suporte para um grande número de idiomas e soluções arquitetônicas inovadoras, como a mistura de especialistas (MoE) e um modo de "pensamento" para resolver tarefas complexas[2].

No mercado global, o Qwen se posiciona como um sério concorrente dos principais modelos da OpenAI, Meta, Anthropic e Mistral AI. A estratégia da Alibaba Cloud enfatiza tanto o alto desempenho quanto a acessibilidade, o que se reflete no lançamento regular de modelos de código aberto, predominantemente sob a licença Apache 2.0[3].

História e desenvolvimento

O desenvolvimento da família Qwen é caracterizado por um ritmo acelerado e decisões estratégicas voltadas tanto para a comunidade de código aberto quanto para usuários comerciais. A partir de uma arquitetura inicial semelhante à LLaMA, a Alibaba Cloud evoluiu para a criação de suas próprias soluções exclusivas, incluindo arquiteturas MoE complexas e sistemas multimodais avançados.

Principais Lançamentos dos Modelos Qwen
Data de Lançamento Modelo Parâmetros (bilhões) Principais Características Licença
Agosto de 2023 Qwen-7B 7 Primeiro modelo de código aberto; pré-treinado com ~2.4 trilhões de tokens; janela de contexto de 32k tokens[4]. Tongyi Qianwen License (requer permissão para uso comercial)[5]
Setembro de 2023 Qwen-14B 14 Treinado com ~3.0 trilhões de tokens; precisão aprimorada em tarefas complexas; janela de contexto de 8k[6]. Tongyi Qianwen License
Novembro de 2023 Qwen-72B 72 Modelo principal, treinado com ~3.0 trilhões de tokens; contexto de 32k; desempenho comparável aos melhores modelos da época. Tongyi Qianwen License
Novembro de 2023 Qwen-1.8B 1.8 Modelo compacto para implantação local; pré-treinado com ~2.2 trilhões de tokens; contexto de 32k. Tongyi Qianwen License
Junho/Setembro de 2024 Qwen 2 0.5–72 Segunda geração; treinado com ~7 trilhões de tokens; introduzidos modelos MoE (ex.: 57B-A14B); contexto aumentado para 128k com a tecnologia YaRN[7]. Apache 2.0 (para a maioria dos modelos)
Setembro de 2024 Qwen 2.5 3–32 Atualização intermediária; conjunto de dados expandido para ~18 trilhões de tokens; habilidades aprimoradas na resolução de problemas de código e matemática[8]. Apache 2.0 (exceto para o 72B)
Novembro de 2024 QwQ-32B (Preview) 32 Modelo experimental "Qwen with Questions" para raciocínio complexo passo a passo; contexto de 32k. Apache 2.0 (apenas pesos)
Janeiro de 2025 Qwen2.5-VL 3–72 Modelos multimodais (texto + imagem); análise de imagens de resolução arbitrária; contexto de até 128k[9]. Apache 2.0 (exceto para o 72B)
Março de 2025 Qwen2.5-Omni-7B 7 Modelo multimodal universal: entrada (texto, imagem, vídeo, áudio), saída (texto, voz). Arquitetura "Thinker-Talker"[10]. Apache 2.0
Abril de 2025 Qwen 3 0.6–235 (MoE) Terceira geração; treinado com ~36 trilhões de tokens em 119 idiomas; variantes MoE (30B-A3B, 235B-A22B); modo integrado de "pensamento em voz alta" (<think>); contexto de 128k[11]. Apache 2.0 (todos os modelos)

Arquitetura e características técnicas

Os modelos Qwen são construídos sobre uma arquitetura de transformador do tipo "somente decodificador" (decoder-only), semelhante à LLaMA e ao GPT. Cada modelo é um decodificador autorregressivo com um mecanismo de atenção de múltiplas cabeças e blocos feed-forward.

Componentes Chave da Arquitetura

  • Elementos base: Qwen emprega soluções padrão para LLMs modernos: normalização RMSNorm para estabilidade do treinamento e a função de ativação SwiGLU nas camadas totalmente conectadas para melhorar o desempenho[4].
  • Codificação posicional: Utiliza Rotary Positional Embeddings (RoPE) para codificar informações sobre a posição dos tokens, o que permite processar sequências longas de forma eficiente[8].
  • Atenção eficiente: Para acelerar os cálculos e economizar memória no mecanismo de atenção, é utilizado o algoritmo FlashAttention[2].

Modelos Densos e Mistura de Especialistas (MoE)

A família Qwen inclui modelos com dois tipos de arquiteturas:

  • Modelos Densos (Dense): Todos os parâmetros do modelo estão ativos durante o processamento de cada token. Exemplos: Qwen-72B, Qwen2.5-32B. Esses modelos são mais simples de implantar, mas exigem mais recursos computacionais à medida que o tamanho aumenta[11].
  • Modelos "Mistura de Especialistas" (Mixture-of-Experts, MoE): Nesses modelos, em vez de uma grande camada totalmente conectada, são usados vários "especialistas" menores e especializados. Para cada token, uma camada especial de roteamento (gating network) seleciona dinamicamente um pequeno subconjunto de especialistas para o processamento. Isso permite criar modelos com um número total enorme de parâmetros com custos computacionais significativamente menores na fase de inferência.
    • Qwen2-57B-A14B contém 57 bilhões de parâmetros no total, mas ativa apenas 14 bilhões a cada solicitação[7].
    • Qwen3-235B-A22B contém 235 bilhões de parâmetros no total, dos quais 22 bilhões estão ativos[11].

Inovações para Contexto Longo

O suporte para contexto longo é um dos pontos fortes do Qwen.

  • Os primeiros modelos suportavam até 32k tokens.
  • Na geração Qwen 2, a janela de contexto foi aumentada para 128k tokens graças ao método YaRN (Yet Another RoPE Extension), que permite estender o contexto sem perda significativa de qualidade[7].
  • O modelo experimental Qwen2.5-Turbo demonstrou funcionamento com um contexto de até 1 milhão de tokens[2].

"Modo de Pensamento" no Qwen 3

Na terceira geração do Qwen, foi implementado um mecanismo de "pensamento híbrido" (hybrid thinking). O modelo pode formar explicitamente uma cadeia de raciocínio (chain-of-thought) antes de fornecer a resposta final.

  • Por padrão, o Qwen 3 incorpora um bloco especial <think>...</think> na saída, onde mostra o raciocínio lógico passo a passo.
  • O usuário pode desativar este modo adicionando o comando /no_think à sua solicitação.

Este mecanismo melhora a capacidade do modelo de resolver problemas complexos que exigem inferência em várias etapas[3].

Tokenizador Multilíngue

O Qwen utiliza um vocabulário de tokens estendido (cerca de 151.000 tokens), baseado no vocabulário BPE do GPT-4 da OpenAI (cl100k) com otimização adicional para o idioma chinês e outras línguas. Isso permite codificar eficientemente ideogramas, caracteres latinos e código de programação, melhorando as capacidades multilíngues do modelo[4].

Capacidades Multimodais

A família Qwen está se desenvolvendo ativamente na direção da multimodalidade, oferecendo modelos capazes de trabalhar com diferentes tipos de dados:

  • Qwen-VL: Combina um transformador visual (para processamento de imagens) com um modelo de linguagem, permitindo responder a perguntas sobre imagens e gerar descrições. A versão Qwen2.5-VL é capaz de analisar imagens de resolução arbitrária e extrair dados estruturados (por exemplo, de tabelas e formulários)[9].
  • Qwen-Audio: Um modelo especializado para processamento de informações de áudio, capaz de reconhecer e gerar fala, música e outros sons[12].
  • Qwen2.5-Omni: Um modelo multimodal universal de ponta a ponta (end-to-end) que percebe simultaneamente texto, imagens, áudio e vídeo, e gera respostas na forma de texto ou fala natural em modo de streaming. Sua base é a arquitetura "Thinker-Talker", onde o "Thinker" (LLM) gera o conteúdo textual, e o "Talker" (um modelo autorregressivo de duas faixas) sintetiza o áudio[10].
  • Modelos especializados: Também foram lançados modelos focados em tarefas específicas, como o Qwen-Coder (programação) e o Qwen-Math (resolução de problemas matemáticos).

Dados de Treinamento e Escala

Os modelos Qwen são treinados em corpus de dados extremamente grandes, que incluem textos da internet, livros, artigos científicos, código de programação e dados matemáticos.

  • Qwen 1.0 (7B): ~2.4 trilhões de tokens.
  • Qwen 1.0 (72B): ~3.0 trilhões de tokens.
  • Qwen 2.0: ~7 trilhões de tokens.
  • Qwen 2.5: ~18 trilhões de tokens.
  • Qwen 3.0: ~36 trilhões de tokens, abrangendo 119 idiomas e dialetos.

Para melhorar a qualidade dos dados, são aplicados métodos avançados de filtragem e geração de dados sintéticos de alta qualidade, especialmente para domínios como matemática e programação[8].

Licenciamento e Disponibilidade

A política de licenciamento dos modelos Qwen evoluiu ao longo do tempo.

  • Modelos iniciais (Qwen 1): Foram distribuídos sob sua própria licença, a Tongyi Qianwen License. Ela permitia o uso acadêmico, mas exigia a submissão de um pedido e a obtenção de uma permissão separada para uso comercial[5].
  • Modelos posteriores (Qwen 2, 2.5, 3): A partir da segunda geração, os desenvolvedores adotaram uma política mais aberta. A maioria dos novos modelos foi lançada sob a licença permissiva Apache License 2.0, que permite seu uso livre tanto em projetos científicos quanto comerciais[7]. Com o lançamento da família Qwen 3, todos os modelos desta geração se tornaram totalmente abertos sob a Apache 2.0, sem restrições adicionais[3].
  • Modelos proprietários e restritos: Apesar da tendência geral de abertura, os maiores ou estrategicamente mais importantes modelos (por exemplo, Qwen2.5-Max, Qwen2.5-VL-72B) permanecem proprietários e estão disponíveis através de APIs pagas da Alibaba Cloud ou são distribuídos sob licenças de pesquisa mais rigorosas.

Comparação com Concorrentes e Desempenho

Os modelos Qwen são ativamente posicionados em um mercado altamente competitivo e são regularmente comparados com os desenvolvimentos das principais empresas globais.

  • vs. Llama (Meta): Em relatórios técnicos, o Qwen frequentemente demonstra superioridade sobre os modelos Llama de tamanho semelhante. Por exemplo, o Qwen2-72B apresenta melhores resultados nos benchmarks MMLU, HumanEval e GSM8K em comparação com o Llama-3-70B.
  • vs. GPT (OpenAI): Os modelos principais da Qwen visam diminuir a diferença em relação aos modelos GPT. A Alibaba Cloud afirma que o Qwen2.5-Max supera o GPT-4o em alguns benchmarks acadêmicos, e o Qwen2-72B-Instruct demonstra competitividade com o GPT-4-Turbo.
  • vs. Mistral AI: Ambas as empresas focam em modelos de código aberto. Testes mostram que o Qwen2-72B supera o Mixtral-8x22B nos principais benchmarks[7].

Resultados em Benchmarks

Comparação de Desempenho dos Principais Modelos Qwen com Concorrentes (dados de meados de 2024)[7]
Modelo MMLU (5-shot) HumanEval (0-shot) GSM8K (8-shot) MT-Bench
Qwen2-72B (base) 84.2 64.6 89.5 N/A
Qwen2-72B-Instruct 82.3 86.0 93.2 9.12
Llama-3-70B (base) 79.5 48.2 83.0 N/A
Llama-3-70B-Instruct 82.0 81.7 93.0 8.95
Mixtral-8x22B (base) 77.8 46.3 83.7 N/A
Mixtral-8x22B-Instruct 74.0 73.8 89.1 8.66

Observação: N/A — não aplicável ou dados não disponíveis nas fontes citadas.

Ecossistema e Aplicação

A família Qwen está integrada em vários produtos e plataformas, formando um ecossistema em desenvolvimento ao seu redor.

  • Plataformas Alibaba Cloud: O acesso aos modelos, especialmente às versões proprietárias mais poderosas, é fornecido através das interfaces de API do Model Studio. A plataforma PAI-EAS (Platform for AI - Elastic Algorithm Service) permite implantar, fazer ajuste fino (fine-tuning) e personalizar os modelos Qwen.
  • Comunidade de Código Aberto: As versões de código aberto dos modelos, seus pesos e código são ativamente hospedados em plataformas como Hugging Face, ModelScope e GitHub[6], o que promove sua ampla disseminação e uso por pesquisadores e desenvolvedores em todo o mundo.
  • Aplicações: Os modelos são utilizados para uma vasta gama de tarefas, desde a geração de conteúdo e análise de dados até a criação de agentes de IA. Por exemplo, os modelos Qwen3 suportam o Model Context Protocol (MCP), que lhes permite interagir de forma mais eficaz com outras aplicações e ferramentas.

Literatura

Literatura

  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T.; et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  • Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  • Qwen Team (2024). Qwen2‑Audio Technical Report. arXiv:2407.10759.
  • Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  • Bai, Jinze; et al. (2025). Qwen2.5‑VL: A Versatile Vision‑Language Model for Real‑World Agent Tasks. arXiv:2502.13923.
  • Wang, Wen; et al. (2025). Qwen2.5‑Omni: A Streaming End‑to‑End Multimodal Model. arXiv:2503.20215.
  • Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.

Notas

  1. 1.0 1.1 "Qwen". In Wikipedia [1]
  2. 2.0 2.1 2.2 "Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond". Inferless. [2]
  3. 3.0 3.1 3.2 "Qwen 3 offers a case study in how to effectively release a model". Simon Willison's Weblog. [3]
  4. 4.0 4.1 4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
  5. 5.0 5.1 "Qwen/Qwen-7B". Hugging Face. [4]
  6. 6.0 6.1 "GitHub - QwenLM/Qwen: The official repo of Qwen". GitHub. [5]
  7. 7.0 7.1 7.2 7.3 7.4 7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
  8. 8.0 8.1 8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
  9. 9.0 9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
  10. 10.0 10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
  11. 11.0 11.1 11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
  12. Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.