Arquiteturas de LLM
Arquiteturas de modelos de linguagem grandes (LLM) — são os princípios e estruturas fundamentais que definem como os modelos de linguagem grandes são construídos, treinados e funcionam. Os LLMs modernos, capazes de compreender e gerar linguagem humana, são quase inteiramente baseados na arquitetura Transformer[1], mas incluem inúmeras melhorias e abordagens distintas destinadas a aumentar a eficiência, a escalabilidade e as capacidades.
Famílias de arquiteturas de LLM (transformers)
Os modelos de linguagem grandes modernos são baseados na arquitetura transformer[1], mas a utilizam de maneiras diferentes dependendo do objetivo: compreender texto, gerar uma continuação ou transformar um texto em outro. Na prática, distinguem-se três famílias, mantendo os princípios básicos do transformer[2][3][4].
1. Encoder-only (apenas codificador, apenas encoder)
O modelo utiliza apenas a pilha de codificadores e processa todo o texto de entrada de forma bidirecional. O pré-treinamento geralmente é estruturado como masked language modeling (MLM, modelagem de linguagem com mascaramento): parte dos tokens é mascarada, e o modelo aprende a reconstruí-los a partir do seu contexto. Graças ao contexto bidirecional, esses modelos são fortes em tarefas de compreensão e pontuação: classificação, extração de entidades, reranking de documentos e QA extrativo. Eles não são projetados para geração autorregressiva "do zero".
Além disso, na prática, são aplicados objetivos de pré-treinamento alternativos para a família encoder-only: replaced token detection (RTD) no ELECTRA (um modelo discriminador reconhece tokens substituídos) e treinamento contrastivo de bi-encoders para busca/recuperação semântica (InfoNCE/softmax-loss em pares "consulta-documento", como no Dense Passage Retrieval). Ao serem usados em RAG, os modelos encoder-only atuam como bi-encoder (codificação separada da consulta e do documento para busca rápida com ANN) ou como cross-encoder (codificação conjunta do par para um reranking preciso).
Vantagens:
- Alta qualidade na compreensão de texto devido ao contexto bidirecional: classificação, NER, extração de fatos, reranking, QA extrativo.
- Processamento paralelo e alto throughput: uma única passagem direta sem autorregressão; conveniente para pontuação em massa em lotes (batch).
- Integração natural com busca e RAG: como bi-encoder — busca semântica rápida; como cross-encoder — reranking preciso.
- Adaptação eficiente: variantes relativamente compactas (≈100–300 milhões de parâmetros; BERT-base ≈110 milhões) alcançam alta qualidade após um ajuste fino (fine-tuning) direcionado.
- Latência estável, independente do comprimento da resposta gerada (sem decodificação passo a passo); bem adequados para pontuação offline de grandes coleções.
- Possibilidade de aumentar a janela de contexto em encoders por meio de posições relativas/rotacionais e/ou atenção esparsa local (ex., Longformer/BigBird), o que é útil para documentos longos.
Desvantagens:
- Sem capacidades generativas próprias: para diálogos e respostas detalhadas, é necessário um decoder ou um módulo generativo externo.
- Limitação em cenários interativos: sem geração passo a passo com preservação de estado.
- Incompatibilidade do objetivo de pré-treinamento com tarefas de geração livre: o MLM se alinha pior com a geração em comparação com a modelagem causal.
- Janela de contexto historicamente limitada (frequentemente 512 tokens em configurações básicas com posições absolutas); a expansão requer esquemas especiais de posicionamento/atenção e/ou ajuste fino.
- Para tarefas de recuperação, é necessário um ajuste fino contrastivo separado para o bi-encoder e/ou cross-encoder; sem isso, a qualidade da busca/reranking geralmente é inferior à de modelos treinados especificamente.
Modelos representativos: BERT e derivados, bem como RoBERTa e DeBERTa (variantes estendidas de encoder-only); de objetivos de pré-treinamento alternativos — ELECTRA (RTD). [5][6][7][8][9][10]
2. Decoder-only (apenas decodificador, apenas decoder)
Utiliza apenas a pilha de decoders com atenção causal (unidirecional): o modelo prevê o próximo token com base no prefixo já fornecido. Esse modo de treinamento — causal language modeling (CLM) — torna esses modelos a escolha natural para geração: diálogos, respostas detalhadas, texto criativo, código de programação. A desvantagem é o aumento da latência e do volume do cache KV com prompts longos. Na prática, para modelos decoder-only, são amplamente utilizadas técnicas de engenharia: redução do cache KV por meio de MQA e GQA, aceleração da inferência com decodificação especulativa e otimizações de servidor (PagedAttention/vLLM, continuous batching, chunked prefill).[11][12][13][14][15]
Vantagens:
- Geração de texto natural (CLM): fortes capacidades de zero-shot e few-shot; escala bem.[16]
- Versatilidade de aplicação: um único modelo resolve múltiplas tarefas por meio de instruções e exemplos no prompt; combina-se naturalmente com RAG e chamada de ferramentas (tool use).
- Ecossistema maduro: práticas de ajuste fino de instrução e alinhamento de comportamento (RLHF, DPO); implementações de código aberto e comerciais disponíveis.[17][18]
- Amplo conjunto de otimizações de inferência: MQA/GQA reduzem o volume do cache KV e aumentam o throughput; a decodificação especulativa acelera a inferência sem alterar a distribuição de saída; PagedAttention/vLLM com continuous batching e chunked prefill aumentam a utilização ponta a ponta da GPU.[19][20][21][22][23]
- Suporte à geração estruturada para formatos de resposta estritos (JSON/SQL/DSL), o que simplifica a integração com sistemas de informação e APIs.[24][25]
Desvantagens:
- Latência de geração aumentada: saída sequencial; o custo de um novo token aumenta com o comprimento do contexto já "lido" (cache KV).
- Menos vantajoso em perfis de "entrada longa - saída curta" (sumarização, tradução) em comparação com encoder-decoder, onde a entrada é codificada uma única vez.
- Limitação pelo contexto unidirecional: em tarefas de compreensão, às vezes é inferior a modelos com representação bidirecional (encoder-only / encoder-decoder).
- A memória para o cache KV pode ser um gargalo em prompts longos e grandes lotes (batches); [26]
- A quantização de ativações/KV (INT8/FP8) acelera a inferência, mas pode degradar a qualidade em contextos longos/código; requer validação cuidadosa (especialmente com SLAs rígidos).
Modelos representativos: GPT-3, GPT-4 (detalhes da arquitetura e do conjunto de dados não divulgados publicamente), LLaMA e Llama 3 (8B/70B, 2024).[27][28][29][30]
3. Encoder-decoder (codificador-decodificador, encoder-decoder)
A arquitetura combina ambos os componentes. O encoder opera em modo bidirecional, e o decoder, em modo causal. O encoder analisa a entrada uma vez e cria sua representação; o decoder gera a saída, acessando essa representação por meio de cross-attention. Essa abordagem separada é especialmente útil onde é necessário transformar um texto de entrada longo em uma saída curta: tradução automática, sumarização, respostas baseadas em documentos. Embora o método exija um custo computacional total maior (duas pilhas e cross-attention), sua vantagem é a geração controlada com base na análise completa do texto original; além disso, a codificação é realizada uma única vez e reutilizada durante todo o processo de inferência.
Vantagens:
- Geração condicional: o decoder utiliza cross-attention para a representação da entrada. [31]
- Eficiente no cenário "entrada longa → saída curta": a entrada é codificada apenas uma vez.
- Conveniente para o formato "text-to-text" e saída controlada (prefixos de tarefa, instruções especiais). [32]
- Estabilidade e eficiência com fontes longas: na fase de decodificação, apenas a self-attention na saída cresce, enquanto a cross-attention reutiliza chaves/valores fixos do encoder (a entrada não é "relida" a cada passo).
Desvantagens:
- Duas pilhas aumentam os requisitos de memória e computação durante o treinamento e a aplicação.
- Em sequências muito longas, a latência final é comparável à de modelos decoder-only; a autorregressão continua sendo o gargalo.
- Menos modelos de chat universais do que entre os decoder-only; são mais frequentemente usados como um motor seq2seq de alta qualidade para tarefas específicas.
- Com entradas muito longas, a memória para as chaves/valores da cross-attention em cada camada do decoder aumenta (abrangendo toda a fonte), o que exige um planejamento cuidadoso do serviço (serving).
Modelos representativos: T5 (incluindo T5 v1.1 e a prática de ajuste fino de instrução no FLAN-T5) e BART. [33][34][35]
Transformers densos (dense)
A arquitetura clássica e mais comum de LLM: no processamento de cada token, participa praticamente todo o conjunto de parâmetros do modelo. Diferentemente de abordagens esparsas (por exemplo, Mixture-of-Experts), não há ativação seletiva de sub-redes — cada bloco opera para cada token. [1]
Princípio de funcionamento e arquitetura
Estrutura básica. O modelo é uma pilha de N blocos transformer idênticos. Cada bloco inclui:
- Autoatenção multi-cabeça (Multi-Head Self-Attention). Para cada token, são calculados três vetores: Q (query), K (key), V (value); a atenção é definida como , onde é uma máscara (causal e/ou de padding), que exclui posições inválidas. Várias "cabeças" de atenção consideram diferentes aspectos do contexto em paralelo (H cabeças, geralmente ); seu número aumenta com a escala do modelo. [1]
- Rede feed-forward (Feed-Forward Network, FFN). Duas camadas lineares com uma não linearidade entre elas (geralmente GELU/SiLU; em vários modelos modernos, SwiGLU). A dimensão intermediária é geralmente ; ao usar SwiGLU, frequentemente se usa para manter um número comparável de parâmetros. A FFN contém uma proporção significativa dos parâmetros. [1][36]
Componentes adicionais. São utilizadas conexões residuais (residual) e normalização de camada; em LLMs modernos, é mais comum o uso de Pre-LN (normalização antes dos sub-blocos) — isso melhora a estabilidade do treinamento em grandes profundidades. Além da LayerNorm clássica, a RMSNorm é cada vez mais utilizada (reduz os custos computacionais e funciona bem em modelos grandes); também, em algumas famílias, aplica-se a normalização no espaço de atenção (ex., normalização de Q/K antes do softmax). As representações posicionais podem ser absolutas ou relativas; para contextos longos, RoPE tornou-se o padrão de fato.
Exemplos de modelos e escala
- BERT-Large: 24 camadas, dimensão de 1024, 16 cabeças de atenção, ≈340 milhões de parâmetros. [37]
- GPT-3 (175B): 96 camadas, dimensão de 12288, 96 cabeças de atenção, ≈175 bilhões de parâmetros. [38]
- LLaMA-65B: 80 camadas, dimensão de 8192, 64 cabeças de atenção, ≈65 bilhões de parâmetros. [39]
- PaLM-540B: 118 camadas, dimensão em torno de 18432, ≈540 bilhões de parâmetros. [40]
Vantagens
- Blocos uniformes, regimes de treinamento bem estudados e comportamento previsível com o escalonamento.
- A qualidade melhora seguindo uma lei de potência com o aumento de parâmetros e dados; o regime compute-optimal pressupõe o aumento conjunto do tamanho do modelo e do volume de tokens de treinamento. [41][42]
- A mesma arquitetura, após o ajuste fino, cobre uma ampla gama de tarefas sem alterações no nível das camadas.
Desvantagens
- A autoatenção completa tem complexidade quadrática em relação ao comprimento da sequência (), o que limita a janela de contexto. [1]
- Ativação completa dos parâmetros na etapa de geração: em um decoder sem MoE, o custo de inferência por token cresce aproximadamente proporcionalmente ao número de parâmetros.
- O gargalo é a largura de banda da memória (memory-bound): o carregamento de pesos da HBM frequentemente limita a velocidade da inferência.
Limitações de escalonamento e contexto
- A memória para os parâmetros cresce linearmente com o tamanho do modelo; a memória de treinamento aumenta devido aos gradientes e aos estados do otimizador.
- As configurações básicas historicamente se limitavam a 2-4 mil tokens. Esquemas posicionais modernos (RoPE) e técnicas de expansão (Position Interpolation, YaRN, etc.) permitem aumentar a janela em uma ordem de magnitude ou mais, mas ao custo de uma carga computacional/de memória adicional. [43][44]
Otimizações modernas
- FlashAttention. Atenção exata que considera a hierarquia da memória da GPU; reduz os custos de memória e acelera o treinamento/inferência em sequências longas. [45]
- Redução e gerenciamento do cache KV. Multi-Query Attention e Grouped-Query Attention reduzem o volume do cache e o tráfego de memória; no nível do servidor, a PagedAttention (vLLM) aumenta o throughput por meio do gerenciamento paginado do cache. [46][47][48]
- Decodificação especulativa. Um modelo de rascunho (draft) propõe uma continuação, e o modelo principal a verifica rapidamente; alcança-se uma aceleração sem alterar a distribuição de saída. [49]
Modelos esparsos (Sparse Models) e Mixture-of-Experts (MoE)
MoE é uma maneira de aumentar a capacidade do modelo sem um crescimento proporcional nos cálculos por token. Em vez de um grande bloco FFN em uma camada, é usado um conjunto de "experts" paralelos (várias FFNs independentes), e um roteador treinável (gating network) seleciona para cada token os top-k experts mais relevantes (geralmente k=1–2; em alguns modelos, k=4). Apenas os experts selecionados são ativados; suas saídas são ponderadas e somadas. Assim, o número total de parâmetros pode ser de centenas de bilhões ou até trilhões, mas a cada passo, apenas uma pequena fração é utilizada. [50][51]
Exemplos de modelos e escala
- Switch Transformer (Google): até ~1.6T de parâmetros; roteamento top-1 (um expert por token). Demonstrou que o MoE permite aumentar drasticamente a capacidade com custos por token comparáveis. [50]
- GLaM (Google): 1.2T de parâmetros, 64 experts por camada, top-2; para cada token, são ativados ≈96.6B de parâmetros (≈8%). [51]
- Mixtral 8×7B (Mistral AI): ~46.7B de parâmetros no total, ≈12.9B ativos por token, top-2. [52][53]
- Mixtral 8×22B: ~141B de parâmetros no total, ≈39B ativos por token, top-2. [54]
- DBRX (Databricks): 132B de parâmetros no total, ≈36B ativos por token; 16 experts e roteamento top-4 (fine-grained MoE). [55]
Vantagens
- O custo computacional é determinado pelo número de experts ativos k, e não pelo número total de parâmetros: é possível treinar e usar modelos de escala de trilhões com custos comparáveis aos de modelos densos de tamanho consideravelmente menor. [51]
- Especialização: os experts se "ajustam" automaticamente a idiomas/domínios/padrões, melhorando a qualidade em tarefas multidomínio.
- Implantação flexível: é possível manter em memória os experts usados com frequência e carregar os raros sob demanda (com a infraestrutura apropriada).
Limitações
- Balanceamento de carga: sem regularização, o roteador pode "grudar" em um subconjunto de experts (router collapse). São necessárias perdas auxiliares (load-balancing) e esquemas de roteamento aprimorados. [50]
- Complexidade da computação distribuída: requer expert parallelism e comunicação all-to-all; os custos de comunicação e o gerenciamento de memória se tornam gargalos. [56]
- Estabilidade do treinamento: as configurações do roteador e as limitações de capacidade são cruciais, caso contrário, pode haver degradação da qualidade/convergência.
Melhorias modernas
- Expert-Choice routing: os experts "escolhem" os tokens, o que melhora o balanceamento e a convergência com custos comparáveis. [57]
- Fine-grained MoE: um número maior de experts menores (como no DBRX) proporciona uma granularidade fina de especialização. [55]
- Sparse Upcycling: converter um modelo denso em um MoE a partir de seu checkpoint permite aumentar significativamente a qualidade com custos moderados. [58]
Relevância da aplicação de MoE
- Grandes assistentes multidomínio com um orçamento de computação limitado.
- Treinamento em corpus extensos, onde a especialização oferece vantagens.
- Cenários com infraestrutura distribuída avançada (muitas GPUs/TPUs e redes rápidas).
Quando modelos densos são melhores: infraestrutura limitada (1–2 GPUs), requisitos rígidos de latência previsível e simplicidade de implantação.
Retrieval-Augmented Generation (RAG)
RAG é um padrão de sistema arquitetônico em torno de um LLM, e não uma arquitetura interna do próprio modelo. Ele combina um LLM (componente generativo) com uma base de conhecimento externa (componente de recuperação), o que permite compensar a limitação da "memória paramétrica" do modelo.
- Princípio de funcionamento: Antes da geração, o LLM recupera documentos relevantes de uma fonte externa (wiki, base de conhecimento corporativa, web) e se baseia neles para formular a resposta. [59]
- Vantagens:
- Aplicação: Padrão de fato para assistentes corporativos e sistemas onde são necessários fatos verificáveis e trabalho com dados privados/altamente especializados. [59]
Mecanismos de atenção e trabalho com o contexto
A autoatenção básica tem complexidade quadrática em relação ao comprimento da sequência (), por isso surgiram otimizações.
- Atenção esparsa (Sparse Attention): Limitação da atenção a janelas/padrões locais. Exemplos: Longformer[61], BigBird[62].
- FlashAttention: Reorganização da ordem dos cálculos levando em conta a hierarquia da memória da GPU; proporciona um ganho significativo em tempo e memória e se tornou o padrão de fato no treinamento de LLMs com contexto longo[63][64][65].
- MQA/GQA (aceleração da decodificação): Multi-Query Attention (chaves/valores compartilhados para todas as cabeças) reduz o tráfego do cache KV[66]. Grouped-Query Attention equilibra qualidade/velocidade[67].
- Representações posicionais aprimoradas:
- ALiBi (Attention with Linear Biases): vieses lineares para as pontuações de atenção melhoram a generalização para comprimentos maiores. [68]
- RoPE (Rotary Position Embeddings): Informação posicional relativa através da rotação de Q/K; amplamente utilizado em modelos modernos (por exemplo, LLaMA). [69][70]
- Extensão de contexto para modelos RoPE: Position Interpolation [71], YaRN [72], bem como modificações cientes de NTK, permitem aumentar eficientemente a janela de contexto sem alterar a arquitetura.
- Outras abordagens para sequências longas:
- Transformer-XL: memória recorrente entre segmentos para modelar dependências de longo alcance. [73]
- Reformer: atenção LSH e blocos residuais reversíveis para economizar memória. [74]
- Performer: aproximação linear da atenção softmax (FAVOR+). [75]
- Linformer: aproximação de baixo posto da matriz de atenção. [76]
Otimizações de modelos e infraestrutura de treinamento
Para o treinamento e implantação de LLMs, são utilizadas técnicas e frameworks especializados.
- Quantização (Quantization): A redução da precisão dos pesos diminui a memória e acelera a inferência. QLoRA permite o ajuste fino eficiente de modelos de 4 bits (incluindo 65B) com qualidade próxima à de precisão total[77].
- Destilação de conhecimento (Knowledge Distillation): Treinamento Professor→Aluno para modelos compactos[78]; exemplo — DistilBERT[79].
- Treinamento distribuído:
- Ecossistema e ferramentas: Hugging Face Transformers e Accelerate fornecem implementações padrão de modelos e integração com DeepSpeed/FSDP para treinamento e inferência[82][83].
Leis de escalonamento e treinamento compute-optimal
As leis de escalonamento empíricas mostram que o erro de entropia cruzada diminui seguindo uma lei de potência com o aumento de parâmetros, dados e computação. [84] O trabalho do Chinchilla refinou os regimes compute-optimal: para uma eficiência ótima, o tamanho do modelo e o número de tokens de treinamento devem ser escalados em conjunto (exemplo — um modelo de 70B treinado com ~1.4T de tokens supera modelos maiores, porém sub-treinados). [85]
Modelos de Espaço de Estados (State Space Models, SSM)
State Space Models (SSM) — uma arquitetura alternativa aos transformers para trabalhar com sequências longas. Ela empresta ideias da teoria de controle e do processamento digital de sinais e resolve o principal problema da autoatenção: o crescimento quadrático da computação à medida que o comprimento do texto aumenta.
O problema principal e a solução
O problema dos transformers. O principal problema dos transformers tradicionais é a complexidade quadrática da atenção: um texto 10 vezes mais longo requer aproximadamente 100 vezes mais computação.
A abordagem SSM. Em vez de "atenção simultânea a todas as palavras", o modelo percorre o texto sequencialmente e mantém um estado de memória interno compacto, que é atualizado a cada passo. Como resultado, o tempo e o consumo de memória crescem aproximadamente de forma linear com o comprimento do texto. Ao mesmo tempo, o treinamento pode ser realizado em paralelo — através de uma representação convolucional do kernel (alto throughput em sequências longas). [86]
Princípio de funcionamento
Um SSM discreto é descrito pelas equações de estado e de saída:
onde é o estado da memória, é a entrada (token), e é a saída. Em SSMs profundos, as matrizes são parametrizadas para garantir estabilidade e cálculos eficientes em sequências longas. A mesma camada pode ser considerada:
- recorrente (varredura passo a passo) — inferência econômica em termos de memória, sem cache KV;
- convolucional — treinamento paralelo com um kernel pré-calculado. [86]
Principais arquiteturas e híbridos
- S4 (Structured State Spaces). A linha de base dos SSMs com uma parametrização estável da matriz de estado; demonstra eficiência em sequências muito longas. [86]
- Mamba. SSMs seletivos: as regras de atualização da memória dependem da entrada atual (o modelo decide o que "manter na memória" e o que "esquecer"). A implementação é otimizada para a hierarquia de memória da GPU; segundo os autores, alcança-se um aumento múltiplo no throughput de inferência com complexidade linear em relação ao comprimento. [87]
- RetNet. Mecanismo de retention com três modos: treinamento paralelo, inferência recorrente e bloco-recorrente. O objetivo é combinar treinamentos rápidos (como nos transformers) com uma inferência econômica (memória O(1) por token). [88]
- Híbridos Attention+SSM. Exemplo — Jamba (alternância de camadas de Transformer e Mamba, mais MoE): relata suporte para contextos da ordem de ~256K tokens com requisitos de memória significativamente menores em comparação com modelos puramente transformer de classe semelhante. [89]
Vantagens
- Complexidade linear e economia de memória na inferência. Sem autoatenção global e cache KV; apenas um estado compacto é mantido. [87][88]
- Treinamento paralelo em sequências longas. O modo convolucional aumenta o throughput do treinamento. [86]
- Eficiência de hardware. As implementações são otimizadas para a hierarquia de memória moderna (HBM/SRAM). [87]
- Contextos longos e streaming. Híbridos SSM+Attention são práticos para centenas de milhares de tokens com recursos moderados. [89]
Limitações e práticas atuais
- Maturidade do ecossistema. As ferramentas e "receitas" para escalonamento (instruções, RLHF/DPO) ainda estão atrás do stack dos transformers. [87]
- Qualidade e estabilidade. Em algumas tarefas, os híbridos (Attention+SSM) mostram um compromisso mais estável entre "qualidade/velocidade/memória" do que os SSMs "puros". [89]
Comparação de abordagens (generalizada)
| Característica | Transformers | SSM | Híbridos (Attention+SSM) |
|---|---|---|---|
| Complexidade com o comprimento | Quadrática (autoatenção) | Linear (scan/convolução) | Próxima de linear |
| Memória por token (inferência) | O cache KV cresce com o contexto | Estado O(1) | Crescimento moderado |
| Contextos longos | Requer otimizações especiais | Suporte nativo | Prático até ~256K |
| Maturidade do ecossistema | Alta | Em desenvolvimento | Em desenvolvimento |
Aplicações práticas
- Análise de documentos muito longos (livros, relatórios, revisões científicas).
- Processamento de streaming e cenários de chat com histórico longo sem aumento do custo de memória.
- Ambientes com recursos limitados (dispositivos móveis/edge).
- Séries temporais e outros dados sequenciais.
Modelos representativos: S4, Mamba, RetNet; híbridos Attention+SSM (Jamba). [86][87][88][89]
Evolução das arquiteturas
- 2017 — Publicado o artigo "Attention Is All You Need". Apresentada a arquitetura do transformer: autoatenção multi-cabeça e codificações posicionais permitem treinar modelos sem recorrência ou convoluções; no entanto, a atenção tem complexidade quadrática em relação ao comprimento do contexto.[1]
- 2018 — Apresentados o GPT-1 e o BERT. O GPT-1 usa uma pilha apenas de decoders com atenção causal para geração e posterior ajuste fino; o BERT introduz um encoder bidirecional e pré-treinamento com MLM para tarefas de compreensão de texto. [90][91]
- 2019 — Propostas maneiras de lidar com sequências longas e o decoder-only é escalado. O Transformer-XL adiciona "memória" e posições relativas para ir além de uma janela fixa; o GPT-2 mostra um aumento nas capacidades de zero-shot com o aumento da escala; o BART demonstra a eficácia do pré-treinamento de denoising para seq2seq. [92][93][94]
- 2020 — Unificado o formato "text-to-text" e mostrados métodos para documentos longos. O T5 formula uma abordagem unificada encoder-decoder para diferentes tarefas; Longformer e BigBird usam atenção esparsa/estruturada para textos longos; o GPT-3 confirma a eficácia do escalonamento de um decoder-only denso. [95][96][97][98]
- 2021 — Aprimoradas as representações posicionais e demonstrada a esparsidade de parâmetros (MoE). RoPE e ALiBi melhoram a generalização em comprimentos maiores; Switch Transformer e GLaM ativam apenas uma parte dos experts por token, aumentando a capacidade sem um aumento proporcional no custo de inferência. [99][100][101][102]
- 2022 — Refinado o regime compute-optimal e acelerada a inferência em prompts longos. O Chinchilla mostra a vantagem de um maior número de tokens de treinamento com um tamanho de modelo moderado; o PaLM com Multi-Query Attention reduz o volume do cache KV; o FlashAttention acelera a atenção na GPU. [103][104][105][106]
- 2023 — Aumentadas as janelas de contexto sem alterar as camadas e melhorada a entrega no servidor. A linha LLaMA consolida práticas (RMSNorm, SwiGLU, RoPE); Position Interpolation e YaRN expandem o contexto; vLLM/PagedAttention gerencia o cache KV de forma mais eficiente. [107][108][109][110][111][112]
- 2023 — GPT-4 e Gemini demonstram processamento e geração em múltiplas modalidades dentro de uma única família de modelos. [113][114]
- 2023 — Propostos modelos com espaço de estados (SSM). Mamba e RetNet reintroduzem o processamento sequencial com um estado compacto em vez do cache KV e estabelecem as bases para arquiteturas híbridas. [115][116]
- 2024 — Publicados modelos MoE de código aberto e híbridos Attention+SSM; acelerada a atenção em novas GPUs. Mixtral 8×7B/8×22B e DBRX confirmam a praticidade do MoE; Jamba combina Transformer e Mamba para contextos muito longos; FlashAttention-3 aumenta o throughput. [117][118][119][120][121]
Links
- https://jalammar.github.io/illustrated-transformer/ The Illustrated Transformer — uma explicação visual
Literatura
- Vaswani, A. et al. (2017). Attention Is All You Need. NIPS. https://arxiv.org/abs/1706.03762
- Devlin, J. et al. (2019). BERT. NAACL. https://arxiv.org/abs/1810.04805
- Brown, T. et al. (2020). Language Models are Few‑Shot Learners. NeurIPS. https://arxiv.org/abs/2005.14165
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
- Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training. https://arxiv.org/abs/1910.13461
- Touvron, H. et al. (2023). LLaMA. https://arxiv.org/abs/2302.13971
- Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311
- Dao, T. et al. (2022–2024). FlashAttention (1/2/3). https://arxiv.org/abs/2205.14135 ; https://arxiv.org/abs/2307.08691 ; https://arxiv.org/abs/2407.08608
- Shazeer, N. (2019). MQA. https://arxiv.org/abs/1911.02150
- Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
- Kwon, W. et al. (2023). PagedAttention / vLLM. https://arxiv.org/abs/2309.06180
- Leviathan, Y. et al. (2023). Speculative Decoding. https://arxiv.org/abs/2211.17192
- Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
- Du, N. et al. (2022). GLaM. https://proceedings.mlr.press/v162/du22c/du22c.pdf
- Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
- Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
- NVIDIA (2024). Applying Mixture of Experts in LLM Architectures. https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
- Zhou, Y. et al. (2022). Expert Choice Routing. https://arxiv.org/abs/2202.09368
- Komatsuzaki, A. et al. (2022). Sparse Upcycling. https://arxiv.org/abs/2212.05055
- Lewis, P. et al. (2020). RAG. https://arxiv.org/abs/2005.11401
- Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
- Zaheer, M. et al. (2020). BigBird. https://arxiv.org/abs/2007.14062
- Press, O. et al. (2022). ALiBi. https://arxiv.org/abs/2108.12409
- Su, J. et al. (2021). RoFormer (RoPE). https://arxiv.org/abs/2104.09864
- Chen, S. et al. (2023). Position Interpolation. https://arxiv.org/abs/2306.15595
- Peng, B. et al. (2023). YaRN. https://arxiv.org/abs/2309.00071
- Dettmers, T. et al. (2023). QLoRA. https://arxiv.org/abs/2305.14314
- Rajbhandari, S. et al. (2020). ZeRO. https://www.microsoft.com/en-us/research/publication/zero-memory-optimizations-toward-training-trillion-parameter-models/
- Shoeybi, M. et al. (2019). Megatron‑LM. https://arxiv.org/abs/1909.08053
- Kaplan, J. et al. (2020). Scaling Laws. https://arxiv.org/abs/2001.08361
- Hoffmann, J. et al. (2022). Chinchilla / Compute‑Optimal. https://arxiv.org/abs/2203.15556
- Gemini Team (2023). Gemini. https://arxiv.org/abs/2312.11805
- Bai, Y. et al. (2022). Constitutional AI. https://arxiv.org/abs/2212.08073
- OpenAI (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
- OpenAI (2023). DevDay: GPT‑4 Turbo 128k. https://openai.com/index/new-models-and-developer-products-announced-at-devday/
- Zhang, B.; Sennrich, R. (2019). RMSNorm. https://arxiv.org/abs/1910.07467
- Shazeer, N. (2020). GLU Variants / SwiGLU. https://arxiv.org/abs/2002.05202
- Gu, A.; Goel, K.; Ré, C. (2021). S4: Structured State Spaces. https://arxiv.org/abs/2111.00396
- Gu, A.; Dao, T. (2023/2024). Mamba: Selective State Spaces. https://arxiv.org/abs/2312.00752
- Sun, Y. et al. (2023). RetNet. https://arxiv.org/abs/2307.08621
- Lieber, O. et al. (2024). Jamba: Hybrid Transformer‑Mamba. https://arxiv.org/abs/2403.19887
- Dai, Z. et al. (2019). Transformer‑XL. https://arxiv.org/abs/1901.02860
- Kitaev, N.; Kaiser, L.; Levskaya, A. (2020). Reformer. https://arxiv.org/abs/2001.04451
- Choromanski, K. et al. (2021). Performer. https://arxiv.org/abs/2009.14794
- Wang, S. et al. (2020). Linformer. https://arxiv.org/abs/2006.04768
Notas
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Vaswani, A. et al. (2017). Attention Is All You Need. https://arxiv.org/abs/1706.03762
- ↑ Devlin, J. et al. (2019). BERT. https://arxiv.org/abs/1810.04805
- ↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
- ↑ Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf
- ↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
- ↑ Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. https://arxiv.org/abs/1907.11692
- ↑ He, P. et al. (2021). DeBERTa: Decoding‑enhanced BERT with Disentangled Attention. https://arxiv.org/abs/2006.03654
- ↑ Clark, K. et al. (2020). ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators. https://arxiv.org/abs/2003.10555
- ↑ Zaheer, M. et al. (2020). Big Bird: Transformers for Longer Sequences. https://arxiv.org/abs/2007.14062
- ↑ Beltagy, I. et al. (2020). Longformer: The Long‑Document Transformer. https://arxiv.org/abs/2004.05150
- ↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need (Multi‑Query Attention). https://arxiv.org/abs/1911.02150
- ↑ Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. https://arxiv.org/abs/2305.13245
- ↑ Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192
- ↑ Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention (vLLM). https://arxiv.org/abs/2309.06180
- ↑ vLLM Docs (2024–2025). Continuous batching, Chunked prefill, Structured outputs. https://docs.vllm.ai/
- ↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
- ↑ Ouyang, L. et al. (2022). InstructGPT (RLHF). https://arxiv.org/abs/2203.02155
- ↑ Rafailov, R. et al. (2023). Direct Preference Optimization. https://arxiv.org/abs/2305.18290
- ↑ Shazeer, 2019. https://arxiv.org/abs/1911.02150
- ↑ Ainslie, 2023. https://arxiv.org/abs/2305.13245
- ↑ Leviathan, 2023. https://arxiv.org/abs/2211.17192
- ↑ Kwon, 2023. https://arxiv.org/abs/2309.06180
- ↑ vLLM Docs. https://docs.vllm.ai/
- ↑ OpenAI (2024). Structured Outputs. https://openai.com/index/introducing-structured-outputs-in-the-api/
- ↑ vLLM Docs — Structured outputs. https://docs.vllm.ai/en/v0.9.2/features/structured_outputs.html
- ↑ Kwon, 2023. https://arxiv.org/abs/2309.06180
- ↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
- ↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
- ↑ Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
- ↑ Meta AI (2024). Introducing Meta Llama 3. https://ai.meta.com/blog/meta-llama-3/
- ↑ Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
- ↑ Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training. https://arxiv.org/abs/1910.13461
- ↑ Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer. JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
- ↑ Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training for NLG, Translation, and Comprehension. https://arxiv.org/abs/1910.13461
- ↑ Chung, H. W. et al. (2022). Scaling Instruction‑Finetuned Language Models (FLAN‑T5). https://arxiv.org/abs/2210.11416
- ↑ Shazeer, N. (2020). GLU Variants Improve Transformer. https://arxiv.org/abs/2002.05202
- ↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
- ↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
- ↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
- ↑ Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311
- ↑ Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361
- ↑ Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556
- ↑ Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595
- ↑ Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071
- ↑ Dao, T. et al. (2022–2024). FlashAttention (1/2/3). https://arxiv.org/abs/2205.14135 ; https://arxiv.org/abs/2307.08691 ; https://arxiv.org/abs/2407.08608
- ↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150
- ↑ Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
- ↑ Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention. https://arxiv.org/abs/2309.06180
- ↑ Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192
- ↑ 50.0 50.1 50.2 Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
- ↑ 51.0 51.1 51.2 Du, N. et al. (2021). GLaM: Efficient Scaling of Language Models with Mixture‑of‑Experts. https://arxiv.org/pdf/2112.06905.pdf
- ↑ Mistral AI (2023). Mixtral of Experts. https://mistral.ai/news/mixtral-of-experts/
- ↑ Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
- ↑ Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b
- ↑ 55.0 55.1 Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
- ↑ NVIDIA (2024). Applying Mixture of Experts in LLM Architectures. https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
- ↑ Zhou, Y. et al. (2022). Mixture‑of‑Experts with Expert Choice Routing. https://arxiv.org/abs/2202.09368
- ↑ Komatsuzaki, A. et al. (2022). Sparse Upcycling: Training Mixture‑of‑Experts from Dense Checkpoints. https://arxiv.org/abs/2212.05055
- ↑ 59.0 59.1 59.2 59.3 Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. https://arxiv.org/abs/2005.11401
- ↑ NVIDIA Blog (2025). What is Retrieval‑Augmented Generation (RAG). https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
- ↑ Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
- ↑ Zaheer, M. et al. (2020). Big Bird. https://arxiv.org/abs/2007.14062
- ↑ Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135
- ↑ Dao, T. et al. (2023). FlashAttention‑2. https://arxiv.org/abs/2307.08691
- ↑ Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608
- ↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150
- ↑ Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
- ↑ Press, O. et al. (2022). ALiBi. https://arxiv.org/abs/2108.12409
- ↑ Su, J. et al. (2021). RoFormer: Rotary Position Embedding. https://arxiv.org/abs/2104.09864
- ↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
- ↑ Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595
- ↑ Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071
- ↑ Dai, Z. et al. (2019). Transformer‑XL: Attentive Language Models Beyond a Fixed‑Length Context. https://arxiv.org/abs/1901.02860
- ↑ Kitaev, N.; Kaiser, L.; Levskaya, A. (2020). Reformer: The Efficient Transformer. https://arxiv.org/abs/2001.04451
- ↑ Choromanski, K. et al. (2021). Rethinking Attention with Performers. https://arxiv.org/abs/2009.14794
- ↑ Wang, S. et al. (2020). Linformer: Self‑Attention with Linear Complexity. https://arxiv.org/abs/2006.04768
- ↑ Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. https://arxiv.org/abs/2305.14314
- ↑ Hinton, G. et al. (2015). Distilling the Knowledge in a Neural Network. https://arxiv.org/abs/1503.02531
- ↑ Sanh, V. et al. (2019). DistilBERT. https://arxiv.org/abs/1910.01108
- ↑ Rajbhandari, S. et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion‑Parameter Models. https://www.microsoft.com/en-us/research/publication/zero-memory-optimizations-toward-training-trillion-parameter-models/
- ↑ Shoeybi, M. et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. https://arxiv.org/abs/1909.08053
- ↑ Hugging Face. Transformers Documentation. https://huggingface.co/docs/transformers
- ↑ Hugging Face. Accelerate Documentation. https://huggingface.co/docs/accelerate
- ↑ Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361
- ↑ Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556
- ↑ 86.0 86.1 86.2 86.3 86.4 Gu, A.; Goel, K.; Ré, C. (2021). Efficiently Modeling Long Sequences with Structured State Spaces (S4). https://arxiv.org/abs/2111.00396
- ↑ 87.0 87.1 87.2 87.3 87.4 Gu, A.; Dao, T. (2023/2024). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. https://arxiv.org/abs/2312.00752
- ↑ 88.0 88.1 88.2 Sun, Y. et al. (2023). Retentive Network: A Successor to Transformer for Large Language Models. https://arxiv.org/abs/2307.08621
- ↑ 89.0 89.1 89.2 89.3 Lieber, O. et al. (2024). Jamba: A Hybrid Transformer‑Mamba Language Model. https://arxiv.org/abs/2403.19887
- ↑ Radford, A. et al. (2018). Improving Language Understanding by Generative Pre‑Training. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
- ↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
- ↑ Dai, Z. et al. (2019). Transformer‑XL. https://arxiv.org/abs/1901.02860
- ↑ Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- ↑ Lewis, M. et al. (2019). BART. https://arxiv.org/abs/1910.13461
- ↑ Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf
- ↑ Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
- ↑ Zaheer, M. et al. (2020). BigBird. https://arxiv.org/abs/2007.14062
- ↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
- ↑ Su, J. et al. (2021). RoPE. https://arxiv.org/abs/2104.09864
- ↑ Press, O. et al. (2021/2022). ALiBi. https://arxiv.org/abs/2108.12409
- ↑ Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
- ↑ Du, N. et al. (2021). GLaM. https://arxiv.org/pdf/2112.06905.pdf
- ↑ Hoffmann, J. et al. (2022). Chinchilla. https://arxiv.org/abs/2203.15556
- ↑ Chowdhery, A. et al. (2022). PaLM. https://arxiv.org/abs/2204.02311
- ↑ Shazeer, N. (2019). Fast Transformer Decoding. https://arxiv.org/abs/1911.02150
- ↑ Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135
- ↑ Touvron, H. et al. (2023). LLaMA. https://arxiv.org/abs/2302.13971
- ↑ Zhang, B.; Sennrich, R. (2019). RMSNorm. https://arxiv.org/abs/1910.07467
- ↑ Shazeer, N. (2020). GLU Variants. https://arxiv.org/abs/2002.05202
- ↑ Chen, S. et al. (2023). Position Interpolation. https://arxiv.org/abs/2306.15595
- ↑ Peng, B. et al. (2023). YaRN. https://arxiv.org/abs/2309.00071
- ↑ Kwon, W. et al. (2023). vLLM/PagedAttention. https://arxiv.org/abs/2309.06180
- ↑ OpenAI (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
- ↑ Gemini Team (2023). Gemini. https://arxiv.org/abs/2312.11805
- ↑ Gu, A.; Dao, T. (2023). Mamba. https://arxiv.org/abs/2312.00752
- ↑ Sun, Y. et al. (2023). RetNet. https://arxiv.org/abs/2307.08621
- ↑ Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
- ↑ Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b
- ↑ Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
- ↑ Lieber, O. et al. (2024). Jamba. https://arxiv.org/abs/2403.19887
- ↑ Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608