Falcon (família de modelos de linguagem)

From Systems analysis wiki
Jump to navigation Jump to search

Falcon é uma família de grandes modelos de linguagem (LLMs) de código aberto, desenvolvida pelo Technology Innovation Institute (Technology Innovation Institute, TII) em Abu Dhabi, EAU[1]. Os modelos Falcon tornaram-se uma contribuição significativa para o desenvolvimento da inteligência artificial acessível, ocupando regularmente posições de destaque em rankings de desempenho, como o Open LLM Leaderboard da Hugging Face[2].

A família inclui modelos de vários tamanhos e especializações, desde versões compactas para execução em hardware de consumo até os maiores modelos que competem com os desenvolvimentos das principais empresas de tecnologia. As principais características do Falcon são sua arquitetura avançada, o treinamento no conjunto de dados de alta qualidade RefinedWeb e uma licença predominantemente aberta, a Apache 2.0[3].

História e desenvolvimento

A primeira versão dos modelos Falcon foi apresentada em junho de 2023. Em setembro de 2023, foi lançado o modelo Falcon-180B, que na época se tornou o maior e mais performático LLM de código aberto do mundo, superando o Llama 2 70B da Meta em número de parâmetros[4][5].

O desenvolvimento posterior da família incluiu o lançamento de novas gerações e versões especializadas:

  • Falcon 2 (2024): A segunda iteração com capacidades aprimoradas, incluindo uma versão multimodal Falcon 2 11B VLM (Vision Language Model)[6].
  • Falcon 3 (dezembro de 2024): A última geração, treinada com 14 trilhões de tokens, com funções multimodais expandidas e otimizada para operar em hardware leve, incluindo laptops[7][8].
  • Modelos especializados: Foram lançados modelos adaptados para tarefas específicas, como o Falcon Arabic e o Falcon Mamba.
Principais modelos da família Falcon
Modelo Parâmetros (bilhões) Principais características Licença
Falcon-180B 180 Maior modelo da primeira geração; treinado com 3,5 trilhões de tokens; supera o GPT-3.5[4]. TII Falcon License 1.0 (com restrições para uso comercial)[5]
Falcon-40B 40 Modelo base de alto desempenho; treinado com 1 trilhão de tokens. Apache 2.0
Falcon-7B 7 Modelo compacto, exigindo ~15 GB de memória GPU; adequado para hardware de consumo[2]. Apache 2.0
Falcon-1.3B 1.3 Modelo menor para dispositivos com recursos limitados. Apache 2.0
Falcon 2 11B 11 Segunda geração; compete com o Llama 3 8B e Gemma 7B; existe uma versão multimodal (VLM)[6]. Apache 2.0
Falcon 3 N/D Treinado com 14 trilhões de tokens; multimodalidade (texto, imagem, áudio, vídeo); opera em laptops[7]. Apache 2.0
Falcon Arabic 7 Modelo especializado para o idioma árabe (padrão e dialetos); arquitetura do Falcon 3[9]. Apache 2.0
Falcon Mamba N/D Modelo experimental baseado na arquitetura Mamba (SSM) em vez de Transformer[10]. Apache 2.0

Arquitetura e características técnicas

Arquitetura Transformer

A maioria dos modelos Falcon é construída sobre uma arquitetura Transformer do tipo "decoder-only". As principais decisões arquitetônicas incluem:

  • Multi-Query Attention (MQA): Diferente da Multi-Head Attention padrão, onde cada "cabeça" (head) tem seu próprio conjunto de chave-valor (key/value), na MQA todas as cabeças de atenção compartilham um único conjunto de chave e valor. Isso reduz significativamente o consumo de memória e acelera a inferência sem perda substancial de qualidade[2].
  • Rotary Positional Embeddings (RoPE): Para codificar a informação de posição dos tokens, utiliza-se o RoPE, assim como em outros LLMs modernos.
  • FlashAttention: Utilizado para otimizar os cálculos do mecanismo de atenção.

Arquitetura Mamba (State Space Model)

O modelo Falcon Mamba é inovador, pois se afasta da arquitetura Transformer tradicional em favor do State Space Model (SSM). A arquitetura Mamba processa sequências de dados de forma linear, o que lhe permite ser significativamente mais eficiente ao lidar com contextos muito longos e exigir menos recursos computacionais em comparação com os Transformers[10].

Dados de treinamento

A base para o treinamento dos modelos Falcon é o conjunto de dados de alta qualidade RefinedWeb, criado pelo TII[5]. Ele consiste em trilhões de tokens extraídos do Common Crawl, com a aplicação de rigorosa filtragem e desduplicação para aumentar a qualidade.

  • Para o Falcon-180B, foi utilizado um conjunto de dados expandido de 3,5 trilhões de tokens, composto por aproximadamente 85% de RefinedWeb, além de dados selecionados de livros, diálogos e código[4].
  • O Falcon Arabic foi treinado em um conjunto de dados nativo (não traduzido) de árabe de alta qualidade, abrangendo tanto o árabe padrão moderno quanto dialetos regionais[11].

Modelos especializados

Falcon Arabic

O Falcon Arabic é um modelo com 7 bilhões de parâmetros, especialmente otimizado para o idioma árabe. Ele demonstra resultados excepcionais em benchmarks de árabe (Open Arabic LLM Leaderboard) e é capaz de compreender tanto o Árabe Padrão Moderno (MSA) quanto uma variedade de dialetos regionais. Isso permite que o modelo forneça respostas culturalmente conscientes e precisas para usuários de língua árabe[9]. Em termos de desempenho, ele supera modelos até 10 vezes maiores em tamanho[12].

Capacidades multimodais

  • O Falcon 2 11B VLM foi o primeiro modelo multimodal da família, capaz de processar tanto texto quanto imagens[6].
  • O Falcon 3 expandiu significativamente essas capacidades, adicionando suporte para vídeo e áudio. Está previsto que um modo de voz completo esteja disponível em janeiro de 2025[7].

Desempenho e problemas

Comparação com concorrentes

Os modelos Falcon demonstram consistentemente um alto desempenho.

  • O Falcon-180B supera o GPT-3.5 e o Llama 2 70B na maioria dos benchmarks acadêmicos, como MMLU, HellaSwag e LAMBADA, embora seja inferior ao GPT-4[4].
  • O Falcon 2 11B demonstra um desempenho no mesmo nível ou superior ao do Meta Llama 3 8B e do Google Gemma 7B[6].
  • O Falcon 3, no momento de seu lançamento, alcançou o primeiro lugar no ranking global da Hugging Face entre os modelos de seu tamanho[7].

Limitações e problemas

  • Qualidade em diferentes idiomas: A maior parte dos dados de treinamento é em inglês[13]. Por isso, a qualidade do desempenho dos modelos em outros idiomas, incluindo o russo, pode ser significativamente inferior.[14].
  • Alucinações: Como todos os LLMs, os modelos Falcon estão sujeitos à geração de informações imprecisas ou fictícias (alucinações), o que exige uma abordagem cautelosa ao serem utilizados em aplicações críticas[15].
  • Restrições de licenciamento: Embora a maioria dos modelos seja distribuída sob a licença Apache 2.0, o modelo principal, Falcon-180B, possui sua própria licença, a TII Falcon LLM License, que impõe a obrigação de pagamento de royalties para uso comercial com receita superior a 1 milhão de dólares, o que limita sua aplicação em negócios[5][16].

Referências bibliográficas

  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
  • Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
  • Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
  • Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.

Notas

  1. "Nos EAU foi apresentado o grande modelo de linguagem Falcon 2". Interfax. [1]
  2. 2.0 2.1 2.2 "Falcon: The 'T-shirt-sized' 7B and 40B models that are democratizing the LLM landscape". Hugging Face Blog. [2]
  3. "Falcon Model". Hugging Face Transformers documentation. [3]
  4. 4.0 4.1 4.2 4.3 "Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2". The Decoder. [4]
  5. 5.0 5.1 5.2 5.3 "Falcon 180B: o maior modelo de linguagem aberto do mundo". Neurohive. [5]
  6. 6.0 6.1 6.2 6.3 "Falcon 2: O Instituto de Inovação Tecnológica dos EAU lança uma nova série de modelos de IA que supera o Llama 3 da Meta". AETOSWire. [6]
  7. 7.0 7.1 7.2 7.3 "Falcon 3: O Instituto de Inovação Tecnológica dos EAU lança os modelos de IA pequenos mais poderosos do mundo, capazes de operar até mesmo em dispositivos leves, incluindo laptops". AETOSWire. [7]
  8. "Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures". Abu Dhabi Media Office. [8]
  9. 9.0 9.1 "Falcon Arabic". FalconLLM TII. [9]
  10. 10.0 10.1 "Falcon Mamba — um novo passo no desenvolvimento de modelos de linguagem sem o mecanismo de atenção". Pikabu. [10]
  11. "Middle East's Leading AI Powerhouse TII Launches Two New AI Models". TII News. [11]
  12. "Middle East's leading AI powerhouse, TII,launches two new AI models". Falcon Foundation. [12]
  13. Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, et al. "The Falcon Series of Open Language Models". arXiv, 29 de novembro de 2023. https://doi.org/10.48550/arXiv.2311.16867.[13]
  14. "O principal produtor de IA do Oriente Médio, TII, lança dois novos modelos de IA: Falcon Arabic — o primeiro modelo em árabe da série Falcon, e Falcon H1 — um modelo de alto desempenho que é o melhor de sua classe". AETOSWire. [14]
  15. "Falcon-180B: análise, execução e primeiras impressões". Habr. [15]
  16. "Falcon 180B License Discussion". Hugging Face. [16]