Arquiteturas de LLM

Arquiteturas de modelos de linguagem grandes (LLM) — são os princípios e estruturas fundamentais que definem como os modelos de linguagem grandes são construídos, treinados e funcionam. Os LLMs modernos, capazes de compreender e gerar linguagem humana, são quase inteiramente baseados na arquitetura Transformer^[1], mas incluem inúmeras melhorias e abordagens distintas destinadas a aumentar a eficiência, a escalabilidade e as capacidades.

Famílias de arquiteturas de LLM (transformers)

Os modelos de linguagem grandes modernos são baseados na arquitetura transformer^[1], mas a utilizam de maneiras diferentes dependendo do objetivo: compreender texto, gerar uma continuação ou transformar um texto em outro. Na prática, distinguem-se três famílias, mantendo os princípios básicos do transformer^[2]^[3]^[4].

1. Encoder-only (apenas codificador, apenas encoder)

O modelo utiliza apenas a pilha de codificadores e processa todo o texto de entrada de forma bidirecional. O pré-treinamento geralmente é estruturado como masked language modeling (MLM, modelagem de linguagem com mascaramento): parte dos tokens é mascarada, e o modelo aprende a reconstruí-los a partir do seu contexto. Graças ao contexto bidirecional, esses modelos são fortes em tarefas de compreensão e pontuação: classificação, extração de entidades, reranking de documentos e QA extrativo. Eles não são projetados para geração autorregressiva "do zero".

Além disso, na prática, são aplicados objetivos de pré-treinamento alternativos para a família encoder-only: replaced token detection (RTD) no ELECTRA (um modelo discriminador reconhece tokens substituídos) e treinamento contrastivo de bi-encoders para busca/recuperação semântica (InfoNCE/softmax-loss em pares "consulta-documento", como no Dense Passage Retrieval). Ao serem usados em RAG, os modelos encoder-only atuam como bi-encoder (codificação separada da consulta e do documento para busca rápida com ANN) ou como cross-encoder (codificação conjunta do par para um reranking preciso).

Vantagens:

Alta qualidade na compreensão de texto devido ao contexto bidirecional: classificação, NER, extração de fatos, reranking, QA extrativo.
Processamento paralelo e alto throughput: uma única passagem direta sem autorregressão; conveniente para pontuação em massa em lotes (batch).
Integração natural com busca e RAG: como bi-encoder — busca semântica rápida; como cross-encoder — reranking preciso.
Adaptação eficiente: variantes relativamente compactas (≈100–300 milhões de parâmetros; BERT-base ≈110 milhões) alcançam alta qualidade após um ajuste fino (fine-tuning) direcionado.
Latência estável, independente do comprimento da resposta gerada (sem decodificação passo a passo); bem adequados para pontuação offline de grandes coleções.
Possibilidade de aumentar a janela de contexto em encoders por meio de posições relativas/rotacionais e/ou atenção esparsa local (ex., Longformer/BigBird), o que é útil para documentos longos.

Desvantagens:

Sem capacidades generativas próprias: para diálogos e respostas detalhadas, é necessário um decoder ou um módulo generativo externo.
Limitação em cenários interativos: sem geração passo a passo com preservação de estado.
Incompatibilidade do objetivo de pré-treinamento com tarefas de geração livre: o MLM se alinha pior com a geração em comparação com a modelagem causal.
Janela de contexto historicamente limitada (frequentemente 512 tokens em configurações básicas com posições absolutas); a expansão requer esquemas especiais de posicionamento/atenção e/ou ajuste fino.
Para tarefas de recuperação, é necessário um ajuste fino contrastivo separado para o bi-encoder e/ou cross-encoder; sem isso, a qualidade da busca/reranking geralmente é inferior à de modelos treinados especificamente.

Modelos representativos: BERT e derivados, bem como RoBERTa e DeBERTa (variantes estendidas de encoder-only); de objetivos de pré-treinamento alternativos — ELECTRA (RTD). ^[5]^[6]^[7]^[8]^[9]^[10]

2. Decoder-only (apenas decodificador, apenas decoder)

Utiliza apenas a pilha de decoders com atenção causal (unidirecional): o modelo prevê o próximo token com base no prefixo já fornecido. Esse modo de treinamento — causal language modeling (CLM) — torna esses modelos a escolha natural para geração: diálogos, respostas detalhadas, texto criativo, código de programação. A desvantagem é o aumento da latência e do volume do cache KV com prompts longos. Na prática, para modelos decoder-only, são amplamente utilizadas técnicas de engenharia: redução do cache KV por meio de MQA e GQA, aceleração da inferência com decodificação especulativa e otimizações de servidor (PagedAttention/vLLM, continuous batching, chunked prefill).^[11]^[12]^[13]^[14]^[15]

Vantagens:

Geração de texto natural (CLM): fortes capacidades de zero-shot e few-shot; escala bem.^[16]
Versatilidade de aplicação: um único modelo resolve múltiplas tarefas por meio de instruções e exemplos no prompt; combina-se naturalmente com RAG e chamada de ferramentas (tool use).
Ecossistema maduro: práticas de ajuste fino de instrução e alinhamento de comportamento (RLHF, DPO); implementações de código aberto e comerciais disponíveis.^[17]^[18]
Amplo conjunto de otimizações de inferência: MQA/GQA reduzem o volume do cache KV e aumentam o throughput; a decodificação especulativa acelera a inferência sem alterar a distribuição de saída; PagedAttention/vLLM com continuous batching e chunked prefill aumentam a utilização ponta a ponta da GPU.^[19]^[20]^[21]^[22]^[23]
Suporte à geração estruturada para formatos de resposta estritos (JSON/SQL/DSL), o que simplifica a integração com sistemas de informação e APIs.^[24]^[25]

Desvantagens:

Latência de geração aumentada: saída sequencial; o custo de um novo token aumenta com o comprimento do contexto já "lido" (cache KV).
Menos vantajoso em perfis de "entrada longa - saída curta" (sumarização, tradução) em comparação com encoder-decoder, onde a entrada é codificada uma única vez.
Limitação pelo contexto unidirecional: em tarefas de compreensão, às vezes é inferior a modelos com representação bidirecional (encoder-only / encoder-decoder).
A memória para o cache KV pode ser um gargalo em prompts longos e grandes lotes (batches); ^[26]
A quantização de ativações/KV (INT8/FP8) acelera a inferência, mas pode degradar a qualidade em contextos longos/código; requer validação cuidadosa (especialmente com SLAs rígidos).

Modelos representativos: GPT-3, GPT-4 (detalhes da arquitetura e do conjunto de dados não divulgados publicamente), LLaMA e Llama 3 (8B/70B, 2024).^[27]^[28]^[29]^[30]

3. Encoder-decoder (codificador-decodificador, encoder-decoder)

A arquitetura combina ambos os componentes. O encoder opera em modo bidirecional, e o decoder, em modo causal. O encoder analisa a entrada uma vez e cria sua representação; o decoder gera a saída, acessando essa representação por meio de cross-attention. Essa abordagem separada é especialmente útil onde é necessário transformar um texto de entrada longo em uma saída curta: tradução automática, sumarização, respostas baseadas em documentos. Embora o método exija um custo computacional total maior (duas pilhas e cross-attention), sua vantagem é a geração controlada com base na análise completa do texto original; além disso, a codificação é realizada uma única vez e reutilizada durante todo o processo de inferência.

Vantagens:

Geração condicional: o decoder utiliza cross-attention para a representação da entrada. ^[31]
Eficiente no cenário "entrada longa → saída curta": a entrada é codificada apenas uma vez.
Conveniente para o formato "text-to-text" e saída controlada (prefixos de tarefa, instruções especiais). ^[32]
Estabilidade e eficiência com fontes longas: na fase de decodificação, apenas a self-attention na saída cresce, enquanto a cross-attention reutiliza chaves/valores fixos do encoder (a entrada não é "relida" a cada passo).

Desvantagens:

Duas pilhas aumentam os requisitos de memória e computação durante o treinamento e a aplicação.
Em sequências muito longas, a latência final é comparável à de modelos decoder-only; a autorregressão continua sendo o gargalo.
Menos modelos de chat universais do que entre os decoder-only; são mais frequentemente usados como um motor seq2seq de alta qualidade para tarefas específicas.
Com entradas muito longas, a memória para as chaves/valores da cross-attention em cada camada do decoder aumenta (abrangendo toda a fonte), o que exige um planejamento cuidadoso do serviço (serving).

Modelos representativos: T5 (incluindo T5 v1.1 e a prática de ajuste fino de instrução no FLAN-T5) e BART. ^[33]^[34]^[35]

Transformers densos (dense)

A arquitetura clássica e mais comum de LLM: no processamento de cada token, participa praticamente todo o conjunto de parâmetros do modelo. Diferentemente de abordagens esparsas (por exemplo, Mixture-of-Experts), não há ativação seletiva de sub-redes — cada bloco opera para cada token. ^[1]

Princípio de funcionamento e arquitetura

Estrutura básica. O modelo é uma pilha de N blocos transformer idênticos. Cada bloco inclui:

Autoatenção multi-cabeça (Multi-Head Self-Attention). Para cada token, são calculados três vetores: Q (query), K (key), V (value); a atenção é definida como $softmax (\frac{Q K^{⊤} + M}{\sqrt{d_{k}}}) \cdot V$ , onde $M$ é uma máscara (causal e/ou de padding), que exclui posições inválidas. Várias "cabeças" de atenção consideram diferentes aspectos do contexto em paralelo (H cabeças, geralmente $d_{h e a d} = \frac{d_{m o d e l}}{H}$ ); seu número aumenta com a escala do modelo. ^[1]
Rede feed-forward (Feed-Forward Network, FFN). Duas camadas lineares com uma não linearidade entre elas (geralmente GELU/SiLU; em vários modelos modernos, SwiGLU). A dimensão intermediária é geralmente $\approx 4 d_{m o d e l}$ ; ao usar SwiGLU, frequentemente se usa $\approx \frac{8}{3} d_{m o d e l}$ para manter um número comparável de parâmetros. A FFN contém uma proporção significativa dos parâmetros. ^[1]^[36]

Componentes adicionais. São utilizadas conexões residuais (residual) e normalização de camada; em LLMs modernos, é mais comum o uso de Pre-LN (normalização antes dos sub-blocos) — isso melhora a estabilidade do treinamento em grandes profundidades. Além da LayerNorm clássica, a RMSNorm é cada vez mais utilizada (reduz os custos computacionais e funciona bem em modelos grandes); também, em algumas famílias, aplica-se a normalização no espaço de atenção (ex., normalização de Q/K antes do softmax). As representações posicionais podem ser absolutas ou relativas; para contextos longos, RoPE tornou-se o padrão de fato.

Exemplos de modelos e escala

BERT-Large: 24 camadas, dimensão de 1024, 16 cabeças de atenção, ≈340 milhões de parâmetros. ^[37]
GPT-3 (175B): 96 camadas, dimensão de 12288, 96 cabeças de atenção, ≈175 bilhões de parâmetros. ^[38]
LLaMA-65B: 80 camadas, dimensão de 8192, 64 cabeças de atenção, ≈65 bilhões de parâmetros. ^[39]
PaLM-540B: 118 camadas, dimensão em torno de 18432, ≈540 bilhões de parâmetros. ^[40]

Vantagens

Blocos uniformes, regimes de treinamento bem estudados e comportamento previsível com o escalonamento.
A qualidade melhora seguindo uma lei de potência com o aumento de parâmetros e dados; o regime compute-optimal pressupõe o aumento conjunto do tamanho do modelo e do volume de tokens de treinamento. ^[41]^[42]
A mesma arquitetura, após o ajuste fino, cobre uma ampla gama de tarefas sem alterações no nível das camadas.

Desvantagens

A autoatenção completa tem complexidade quadrática em relação ao comprimento da sequência ( $O (n^{2})$ ), o que limita a janela de contexto. ^[1]
Ativação completa dos parâmetros na etapa de geração: em um decoder sem MoE, o custo de inferência por token cresce aproximadamente proporcionalmente ao número de parâmetros.
O gargalo é a largura de banda da memória (memory-bound): o carregamento de pesos da HBM frequentemente limita a velocidade da inferência.

Limitações de escalonamento e contexto

A memória para os parâmetros cresce linearmente com o tamanho do modelo; a memória de treinamento aumenta devido aos gradientes e aos estados do otimizador.
As configurações básicas historicamente se limitavam a 2-4 mil tokens. Esquemas posicionais modernos (RoPE) e técnicas de expansão (Position Interpolation, YaRN, etc.) permitem aumentar a janela em uma ordem de magnitude ou mais, mas ao custo de uma carga computacional/de memória adicional. ^[43]^[44]

Otimizações modernas

FlashAttention. Atenção exata que considera a hierarquia da memória da GPU; reduz os custos de memória e acelera o treinamento/inferência em sequências longas. ^[45]
Redução e gerenciamento do cache KV. Multi-Query Attention e Grouped-Query Attention reduzem o volume do cache e o tráfego de memória; no nível do servidor, a PagedAttention (vLLM) aumenta o throughput por meio do gerenciamento paginado do cache. ^[46]^[47]^[48]
Decodificação especulativa. Um modelo de rascunho (draft) propõe uma continuação, e o modelo principal a verifica rapidamente; alcança-se uma aceleração sem alterar a distribuição de saída. ^[49]

Modelos esparsos (Sparse Models) e Mixture-of-Experts (MoE)

MoE é uma maneira de aumentar a capacidade do modelo sem um crescimento proporcional nos cálculos por token. Em vez de um grande bloco FFN em uma camada, é usado um conjunto de "experts" paralelos (várias FFNs independentes), e um roteador treinável (gating network) seleciona para cada token os top-k experts mais relevantes (geralmente k=1–2; em alguns modelos, k=4). Apenas os experts selecionados são ativados; suas saídas são ponderadas e somadas. Assim, o número total de parâmetros pode ser de centenas de bilhões ou até trilhões, mas a cada passo, apenas uma pequena fração é utilizada. ^[50]^[51]

Exemplos de modelos e escala

Switch Transformer (Google): até ~1.6T de parâmetros; roteamento top-1 (um expert por token). Demonstrou que o MoE permite aumentar drasticamente a capacidade com custos por token comparáveis. ^[50]
GLaM (Google): 1.2T de parâmetros, 64 experts por camada, top-2; para cada token, são ativados ≈96.6B de parâmetros (≈8%). ^[51]
Mixtral 8×7B (Mistral AI): ~46.7B de parâmetros no total, ≈12.9B ativos por token, top-2. ^[52]^[53]
Mixtral 8×22B: ~141B de parâmetros no total, ≈39B ativos por token, top-2. ^[54]
DBRX (Databricks): 132B de parâmetros no total, ≈36B ativos por token; 16 experts e roteamento top-4 (fine-grained MoE). ^[55]

Vantagens

O custo computacional é determinado pelo número de experts ativos k, e não pelo número total de parâmetros: é possível treinar e usar modelos de escala de trilhões com custos comparáveis aos de modelos densos de tamanho consideravelmente menor. ^[51]
Especialização: os experts se "ajustam" automaticamente a idiomas/domínios/padrões, melhorando a qualidade em tarefas multidomínio.
Implantação flexível: é possível manter em memória os experts usados com frequência e carregar os raros sob demanda (com a infraestrutura apropriada).

Limitações

Balanceamento de carga: sem regularização, o roteador pode "grudar" em um subconjunto de experts (router collapse). São necessárias perdas auxiliares (load-balancing) e esquemas de roteamento aprimorados. ^[50]
Complexidade da computação distribuída: requer expert parallelism e comunicação all-to-all; os custos de comunicação e o gerenciamento de memória se tornam gargalos. ^[56]
Estabilidade do treinamento: as configurações do roteador e as limitações de capacidade são cruciais, caso contrário, pode haver degradação da qualidade/convergência.

Melhorias modernas

Expert-Choice routing: os experts "escolhem" os tokens, o que melhora o balanceamento e a convergência com custos comparáveis. ^[57]
Fine-grained MoE: um número maior de experts menores (como no DBRX) proporciona uma granularidade fina de especialização. ^[55]
Sparse Upcycling: converter um modelo denso em um MoE a partir de seu checkpoint permite aumentar significativamente a qualidade com custos moderados. ^[58]

Relevância da aplicação de MoE

Grandes assistentes multidomínio com um orçamento de computação limitado.
Treinamento em corpus extensos, onde a especialização oferece vantagens.
Cenários com infraestrutura distribuída avançada (muitas GPUs/TPUs e redes rápidas).

Quando modelos densos são melhores: infraestrutura limitada (1–2 GPUs), requisitos rígidos de latência previsível e simplicidade de implantação.

Retrieval-Augmented Generation (RAG)

RAG é um padrão de sistema arquitetônico em torno de um LLM, e não uma arquitetura interna do próprio modelo. Ele combina um LLM (componente generativo) com uma base de conhecimento externa (componente de recuperação), o que permite compensar a limitação da "memória paramétrica" do modelo.

Princípio de funcionamento: Antes da geração, o LLM recupera documentos relevantes de uma fonte externa (wiki, base de conhecimento corporativa, web) e se baseia neles para formular a resposta. ^[59]
Vantagens:
- Redução de alucinações e melhoria da precisão factual. ^[59]^[60]
- Relevância sem a necessidade de retreinamento completo do modelo. ^[59]
- Citação e rastreabilidade das respostas.
Aplicação: Padrão de fato para assistentes corporativos e sistemas onde são necessários fatos verificáveis e trabalho com dados privados/altamente especializados. ^[59]

Mecanismos de atenção e trabalho com o contexto

A autoatenção básica tem complexidade quadrática em relação ao comprimento da sequência ( $O (n^{2})$ ), por isso surgiram otimizações.

Atenção esparsa (Sparse Attention): Limitação da atenção a janelas/padrões locais. Exemplos: Longformer^[61], BigBird^[62].
FlashAttention: Reorganização da ordem dos cálculos levando em conta a hierarquia da memória da GPU; proporciona um ganho significativo em tempo e memória e se tornou o padrão de fato no treinamento de LLMs com contexto longo^[63]^[64]^[65].
MQA/GQA (aceleração da decodificação): Multi-Query Attention (chaves/valores compartilhados para todas as cabeças) reduz o tráfego do cache KV^[66]. Grouped-Query Attention equilibra qualidade/velocidade^[67].
Representações posicionais aprimoradas:
- ALiBi (Attention with Linear Biases): vieses lineares para as pontuações de atenção melhoram a generalização para comprimentos maiores. ^[68]
- RoPE (Rotary Position Embeddings): Informação posicional relativa através da rotação de Q/K; amplamente utilizado em modelos modernos (por exemplo, LLaMA). ^[69]^[70]
- Extensão de contexto para modelos RoPE: Position Interpolation ^[71], YaRN ^[72], bem como modificações cientes de NTK, permitem aumentar eficientemente a janela de contexto sem alterar a arquitetura.

Outras abordagens para sequências longas:
- Transformer-XL: memória recorrente entre segmentos para modelar dependências de longo alcance. ^[73]
- Reformer: atenção LSH e blocos residuais reversíveis para economizar memória. ^[74]
- Performer: aproximação linear da atenção softmax (FAVOR+). ^[75]
- Linformer: aproximação de baixo posto da matriz de atenção. ^[76]

Otimizações de modelos e infraestrutura de treinamento

Para o treinamento e implantação de LLMs, são utilizadas técnicas e frameworks especializados.

Quantização (Quantization): A redução da precisão dos pesos diminui a memória e acelera a inferência. QLoRA permite o ajuste fino eficiente de modelos de 4 bits (incluindo 65B) com qualidade próxima à de precisão total^[77].
Destilação de conhecimento (Knowledge Distillation): Treinamento Professor→Aluno para modelos compactos^[78]; exemplo — DistilBERT^[79].
Treinamento distribuído:
- DeepSpeed e ZeRO — distribuição de parâmetros/gradientes/estados do otimizador para treinar modelos de trilhões de parâmetros^[80].
- Megatron-LM — paralelismo de tensor e de pipeline para transformers muito grandes^[81].
Ecossistema e ferramentas: Hugging Face Transformers e Accelerate fornecem implementações padrão de modelos e integração com DeepSpeed/FSDP para treinamento e inferência^[82]^[83].

Leis de escalonamento e treinamento compute-optimal

As leis de escalonamento empíricas mostram que o erro de entropia cruzada diminui seguindo uma lei de potência com o aumento de parâmetros, dados e computação. ^[84] O trabalho do Chinchilla refinou os regimes compute-optimal: para uma eficiência ótima, o tamanho do modelo e o número de tokens de treinamento devem ser escalados em conjunto (exemplo — um modelo de 70B treinado com ~1.4T de tokens supera modelos maiores, porém sub-treinados). ^[85]

Modelos de Espaço de Estados (State Space Models, SSM)

State Space Models (SSM) — uma arquitetura alternativa aos transformers para trabalhar com sequências longas. Ela empresta ideias da teoria de controle e do processamento digital de sinais e resolve o principal problema da autoatenção: o crescimento quadrático da computação à medida que o comprimento do texto aumenta.

O problema principal e a solução

O problema dos transformers. O principal problema dos transformers tradicionais é a complexidade quadrática da atenção: um texto 10 vezes mais longo requer aproximadamente 100 vezes mais computação.

A abordagem SSM. Em vez de "atenção simultânea a todas as palavras", o modelo percorre o texto sequencialmente e mantém um estado de memória interno compacto, que é atualizado a cada passo. Como resultado, o tempo e o consumo de memória crescem aproximadamente de forma linear com o comprimento do texto. Ao mesmo tempo, o treinamento pode ser realizado em paralelo — através de uma representação convolucional do kernel (alto throughput em sequências longas). ^[86]

Princípio de funcionamento

Um SSM discreto é descrito pelas equações de estado e de saída:

x_{t} = A x_{t - 1} + B u_{t}, y_{t} = C x_{t} + D u_{t}

onde $x_{t}$ é o estado da memória, $u_{t}$ é a entrada (token), e $y_{t}$ é a saída. Em SSMs profundos, as matrizes $A, B, C, D$ são parametrizadas para garantir estabilidade e cálculos eficientes em sequências longas. A mesma camada pode ser considerada:

recorrente (varredura passo a passo) — inferência econômica em termos de memória, sem cache KV;
convolucional — treinamento paralelo com um kernel pré-calculado. ^[86]

Principais arquiteturas e híbridos

S4 (Structured State Spaces). A linha de base dos SSMs com uma parametrização estável da matriz de estado; demonstra eficiência em sequências muito longas. ^[86]
Mamba. SSMs seletivos: as regras de atualização da memória dependem da entrada atual (o modelo decide o que "manter na memória" e o que "esquecer"). A implementação é otimizada para a hierarquia de memória da GPU; segundo os autores, alcança-se um aumento múltiplo no throughput de inferência com complexidade linear em relação ao comprimento. ^[87]
RetNet. Mecanismo de retention com três modos: treinamento paralelo, inferência recorrente e bloco-recorrente. O objetivo é combinar treinamentos rápidos (como nos transformers) com uma inferência econômica (memória O(1) por token). ^[88]
Híbridos Attention+SSM. Exemplo — Jamba (alternância de camadas de Transformer e Mamba, mais MoE): relata suporte para contextos da ordem de ~256K tokens com requisitos de memória significativamente menores em comparação com modelos puramente transformer de classe semelhante. ^[89]

Vantagens

Complexidade linear e economia de memória na inferência. Sem autoatenção global e cache KV; apenas um estado compacto é mantido. ^[87]^[88]
Treinamento paralelo em sequências longas. O modo convolucional aumenta o throughput do treinamento. ^[86]
Eficiência de hardware. As implementações são otimizadas para a hierarquia de memória moderna (HBM/SRAM). ^[87]
Contextos longos e streaming. Híbridos SSM+Attention são práticos para centenas de milhares de tokens com recursos moderados. ^[89]

Limitações e práticas atuais

Maturidade do ecossistema. As ferramentas e "receitas" para escalonamento (instruções, RLHF/DPO) ainda estão atrás do stack dos transformers. ^[87]
Qualidade e estabilidade. Em algumas tarefas, os híbridos (Attention+SSM) mostram um compromisso mais estável entre "qualidade/velocidade/memória" do que os SSMs "puros". ^[89]

Comparação de abordagens (generalizada)

Característica	Transformers	SSM	Híbridos (Attention+SSM)
Complexidade com o comprimento	Quadrática (autoatenção)	Linear (scan/convolução)	Próxima de linear
Memória por token (inferência)	O cache KV cresce com o contexto	Estado O(1)	Crescimento moderado
Contextos longos	Requer otimizações especiais	Suporte nativo	Prático até ~256K
Maturidade do ecossistema	Alta	Em desenvolvimento	Em desenvolvimento

Aplicações práticas

Análise de documentos muito longos (livros, relatórios, revisões científicas).
Processamento de streaming e cenários de chat com histórico longo sem aumento do custo de memória.
Ambientes com recursos limitados (dispositivos móveis/edge).
Séries temporais e outros dados sequenciais.

Modelos representativos: S4, Mamba, RetNet; híbridos Attention+SSM (Jamba). ^[86]^[87]^[88]^[89]

Evolução das arquiteturas

2017 — Publicado o artigo "Attention Is All You Need". Apresentada a arquitetura do transformer: autoatenção multi-cabeça e codificações posicionais permitem treinar modelos sem recorrência ou convoluções; no entanto, a atenção tem complexidade quadrática em relação ao comprimento do contexto.^[1]

2018 — Apresentados o GPT-1 e o BERT. O GPT-1 usa uma pilha apenas de decoders com atenção causal para geração e posterior ajuste fino; o BERT introduz um encoder bidirecional e pré-treinamento com MLM para tarefas de compreensão de texto. ^[90]^[91]

2019 — Propostas maneiras de lidar com sequências longas e o decoder-only é escalado. O Transformer-XL adiciona "memória" e posições relativas para ir além de uma janela fixa; o GPT-2 mostra um aumento nas capacidades de zero-shot com o aumento da escala; o BART demonstra a eficácia do pré-treinamento de denoising para seq2seq. ^[92]^[93]^[94]

2020 — Unificado o formato "text-to-text" e mostrados métodos para documentos longos. O T5 formula uma abordagem unificada encoder-decoder para diferentes tarefas; Longformer e BigBird usam atenção esparsa/estruturada para textos longos; o GPT-3 confirma a eficácia do escalonamento de um decoder-only denso. ^[95]^[96]^[97]^[98]

2021 — Aprimoradas as representações posicionais e demonstrada a esparsidade de parâmetros (MoE). RoPE e ALiBi melhoram a generalização em comprimentos maiores; Switch Transformer e GLaM ativam apenas uma parte dos experts por token, aumentando a capacidade sem um aumento proporcional no custo de inferência. ^[99]^[100]^[101]^[102]

2022 — Refinado o regime compute-optimal e acelerada a inferência em prompts longos. O Chinchilla mostra a vantagem de um maior número de tokens de treinamento com um tamanho de modelo moderado; o PaLM com Multi-Query Attention reduz o volume do cache KV; o FlashAttention acelera a atenção na GPU. ^[103]^[104]^[105]^[106]

2023 — Aumentadas as janelas de contexto sem alterar as camadas e melhorada a entrega no servidor. A linha LLaMA consolida práticas (RMSNorm, SwiGLU, RoPE); Position Interpolation e YaRN expandem o contexto; vLLM/PagedAttention gerencia o cache KV de forma mais eficiente. ^[107]^[108]^[109]^[110]^[111]^[112]

2023 — GPT-4 e Gemini demonstram processamento e geração em múltiplas modalidades dentro de uma única família de modelos. ^[113]^[114]

2023 — Propostos modelos com espaço de estados (SSM). Mamba e RetNet reintroduzem o processamento sequencial com um estado compacto em vez do cache KV e estabelecem as bases para arquiteturas híbridas. ^[115]^[116]

2024 — Publicados modelos MoE de código aberto e híbridos Attention+SSM; acelerada a atenção em novas GPUs. Mixtral 8×7B/8×22B e DBRX confirmam a praticidade do MoE; Jamba combina Transformer e Mamba para contextos muito longos; FlashAttention-3 aumenta o throughput. ^[117]^[118]^[119]^[120]^[121]

Links

https://jalammar.github.io/illustrated-transformer/ The Illustrated Transformer — uma explicação visual

Literatura

Vaswani, A. et al. (2017). Attention Is All You Need. NIPS. https://arxiv.org/abs/1706.03762
Devlin, J. et al. (2019). BERT. NAACL. https://arxiv.org/abs/1810.04805
Brown, T. et al. (2020). Language Models are Few‑Shot Learners. NeurIPS. https://arxiv.org/abs/2005.14165
Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training. https://arxiv.org/abs/1910.13461
Touvron, H. et al. (2023). LLaMA. https://arxiv.org/abs/2302.13971
Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311
Dao, T. et al. (2022–2024). FlashAttention (1/2/3). https://arxiv.org/abs/2205.14135 ; https://arxiv.org/abs/2307.08691 ; https://arxiv.org/abs/2407.08608
Shazeer, N. (2019). MQA. https://arxiv.org/abs/1911.02150
Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
Kwon, W. et al. (2023). PagedAttention / vLLM. https://arxiv.org/abs/2309.06180
Leviathan, Y. et al. (2023). Speculative Decoding. https://arxiv.org/abs/2211.17192
Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
Du, N. et al. (2022). GLaM. https://proceedings.mlr.press/v162/du22c/du22c.pdf
Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
NVIDIA (2024). Applying Mixture of Experts in LLM Architectures. https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
Zhou, Y. et al. (2022). Expert Choice Routing. https://arxiv.org/abs/2202.09368
Komatsuzaki, A. et al. (2022). Sparse Upcycling. https://arxiv.org/abs/2212.05055
Lewis, P. et al. (2020). RAG. https://arxiv.org/abs/2005.11401
Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
Zaheer, M. et al. (2020). BigBird. https://arxiv.org/abs/2007.14062
Press, O. et al. (2022). ALiBi. https://arxiv.org/abs/2108.12409
Su, J. et al. (2021). RoFormer (RoPE). https://arxiv.org/abs/2104.09864
Chen, S. et al. (2023). Position Interpolation. https://arxiv.org/abs/2306.15595
Peng, B. et al. (2023). YaRN. https://arxiv.org/abs/2309.00071
Dettmers, T. et al. (2023). QLoRA. https://arxiv.org/abs/2305.14314
Rajbhandari, S. et al. (2020). ZeRO. https://www.microsoft.com/en-us/research/publication/zero-memory-optimizations-toward-training-trillion-parameter-models/
Shoeybi, M. et al. (2019). Megatron‑LM. https://arxiv.org/abs/1909.08053
Kaplan, J. et al. (2020). Scaling Laws. https://arxiv.org/abs/2001.08361
Hoffmann, J. et al. (2022). Chinchilla / Compute‑Optimal. https://arxiv.org/abs/2203.15556
Gemini Team (2023). Gemini. https://arxiv.org/abs/2312.11805
Bai, Y. et al. (2022). Constitutional AI. https://arxiv.org/abs/2212.08073
OpenAI (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
OpenAI (2023). DevDay: GPT‑4 Turbo 128k. https://openai.com/index/new-models-and-developer-products-announced-at-devday/
Zhang, B.; Sennrich, R. (2019). RMSNorm. https://arxiv.org/abs/1910.07467
Shazeer, N. (2020). GLU Variants / SwiGLU. https://arxiv.org/abs/2002.05202
Gu, A.; Goel, K.; Ré, C. (2021). S4: Structured State Spaces. https://arxiv.org/abs/2111.00396
Gu, A.; Dao, T. (2023/2024). Mamba: Selective State Spaces. https://arxiv.org/abs/2312.00752
Sun, Y. et al. (2023). RetNet. https://arxiv.org/abs/2307.08621
Lieber, O. et al. (2024). Jamba: Hybrid Transformer‑Mamba. https://arxiv.org/abs/2403.19887
Dai, Z. et al. (2019). Transformer‑XL. https://arxiv.org/abs/1901.02860
Kitaev, N.; Kaiser, L.; Levskaya, A. (2020). Reformer. https://arxiv.org/abs/2001.04451
Choromanski, K. et al. (2021). Performer. https://arxiv.org/abs/2009.14794
Wang, S. et al. (2020). Linformer. https://arxiv.org/abs/2006.04768

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Vaswani, A. et al. (2017). Attention Is All You Need. https://arxiv.org/abs/1706.03762
↑ Devlin, J. et al. (2019). BERT. https://arxiv.org/abs/1810.04805
↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
↑ Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf
↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
↑ Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. https://arxiv.org/abs/1907.11692
↑ He, P. et al. (2021). DeBERTa: Decoding‑enhanced BERT with Disentangled Attention. https://arxiv.org/abs/2006.03654
↑ Clark, K. et al. (2020). ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators. https://arxiv.org/abs/2003.10555
↑ Zaheer, M. et al. (2020). Big Bird: Transformers for Longer Sequences. https://arxiv.org/abs/2007.14062
↑ Beltagy, I. et al. (2020). Longformer: The Long‑Document Transformer. https://arxiv.org/abs/2004.05150
↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need (Multi‑Query Attention). https://arxiv.org/abs/1911.02150
↑ Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. https://arxiv.org/abs/2305.13245
↑ Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192
↑ Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention (vLLM). https://arxiv.org/abs/2309.06180
↑ vLLM Docs (2024–2025). Continuous batching, Chunked prefill, Structured outputs. https://docs.vllm.ai/
↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
↑ Ouyang, L. et al. (2022). InstructGPT (RLHF). https://arxiv.org/abs/2203.02155
↑ Rafailov, R. et al. (2023). Direct Preference Optimization. https://arxiv.org/abs/2305.18290
↑ Shazeer, 2019. https://arxiv.org/abs/1911.02150
↑ Ainslie, 2023. https://arxiv.org/abs/2305.13245
↑ Leviathan, 2023. https://arxiv.org/abs/2211.17192
↑ Kwon, 2023. https://arxiv.org/abs/2309.06180
↑ vLLM Docs. https://docs.vllm.ai/
↑ OpenAI (2024). Structured Outputs. https://openai.com/index/introducing-structured-outputs-in-the-api/
↑ vLLM Docs — Structured outputs. https://docs.vllm.ai/en/v0.9.2/features/structured_outputs.html
↑ Kwon, 2023. https://arxiv.org/abs/2309.06180
↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
↑ Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
↑ Meta AI (2024). Introducing Meta Llama 3. https://ai.meta.com/blog/meta-llama-3/
↑ Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
↑ Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training. https://arxiv.org/abs/1910.13461
↑ Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer. JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf
↑ Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training for NLG, Translation, and Comprehension. https://arxiv.org/abs/1910.13461
↑ Chung, H. W. et al. (2022). Scaling Instruction‑Finetuned Language Models (FLAN‑T5). https://arxiv.org/abs/2210.11416
↑ Shazeer, N. (2020). GLU Variants Improve Transformer. https://arxiv.org/abs/2002.05202
↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
↑ Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311
↑ Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361
↑ Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556
↑ Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595
↑ Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071
↑ Dao, T. et al. (2022–2024). FlashAttention (1/2/3). https://arxiv.org/abs/2205.14135 ; https://arxiv.org/abs/2307.08691 ; https://arxiv.org/abs/2407.08608
↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150
↑ Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
↑ Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention. https://arxiv.org/abs/2309.06180
↑ Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192
↑ ^50.0 ^50.1 ^50.2 Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
↑ ^51.0 ^51.1 ^51.2 Du, N. et al. (2021). GLaM: Efficient Scaling of Language Models with Mixture‑of‑Experts. https://arxiv.org/pdf/2112.06905.pdf
↑ Mistral AI (2023). Mixtral of Experts. https://mistral.ai/news/mixtral-of-experts/
↑ Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
↑ Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b
↑ ^55.0 ^55.1 Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
↑ NVIDIA (2024). Applying Mixture of Experts in LLM Architectures. https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
↑ Zhou, Y. et al. (2022). Mixture‑of‑Experts with Expert Choice Routing. https://arxiv.org/abs/2202.09368
↑ Komatsuzaki, A. et al. (2022). Sparse Upcycling: Training Mixture‑of‑Experts from Dense Checkpoints. https://arxiv.org/abs/2212.05055
↑ ^59.0 ^59.1 ^59.2 ^59.3 Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. https://arxiv.org/abs/2005.11401
↑ NVIDIA Blog (2025). What is Retrieval‑Augmented Generation (RAG). https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
↑ Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
↑ Zaheer, M. et al. (2020). Big Bird. https://arxiv.org/abs/2007.14062
↑ Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135
↑ Dao, T. et al. (2023). FlashAttention‑2. https://arxiv.org/abs/2307.08691
↑ Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608
↑ Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150
↑ Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245
↑ Press, O. et al. (2022). ALiBi. https://arxiv.org/abs/2108.12409
↑ Su, J. et al. (2021). RoFormer: Rotary Position Embedding. https://arxiv.org/abs/2104.09864
↑ Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971
↑ Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595
↑ Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071
↑ Dai, Z. et al. (2019). Transformer‑XL: Attentive Language Models Beyond a Fixed‑Length Context. https://arxiv.org/abs/1901.02860
↑ Kitaev, N.; Kaiser, L.; Levskaya, A. (2020). Reformer: The Efficient Transformer. https://arxiv.org/abs/2001.04451
↑ Choromanski, K. et al. (2021). Rethinking Attention with Performers. https://arxiv.org/abs/2009.14794
↑ Wang, S. et al. (2020). Linformer: Self‑Attention with Linear Complexity. https://arxiv.org/abs/2006.04768
↑ Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. https://arxiv.org/abs/2305.14314
↑ Hinton, G. et al. (2015). Distilling the Knowledge in a Neural Network. https://arxiv.org/abs/1503.02531
↑ Sanh, V. et al. (2019). DistilBERT. https://arxiv.org/abs/1910.01108
↑ Rajbhandari, S. et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion‑Parameter Models. https://www.microsoft.com/en-us/research/publication/zero-memory-optimizations-toward-training-trillion-parameter-models/
↑ Shoeybi, M. et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. https://arxiv.org/abs/1909.08053
↑ Hugging Face. Transformers Documentation. https://huggingface.co/docs/transformers
↑ Hugging Face. Accelerate Documentation. https://huggingface.co/docs/accelerate
↑ Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361
↑ Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556
↑ ^86.0 ^86.1 ^86.2 ^86.3 ^86.4 Gu, A.; Goel, K.; Ré, C. (2021). Efficiently Modeling Long Sequences with Structured State Spaces (S4). https://arxiv.org/abs/2111.00396
↑ ^87.0 ^87.1 ^87.2 ^87.3 ^87.4 Gu, A.; Dao, T. (2023/2024). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. https://arxiv.org/abs/2312.00752
↑ ^88.0 ^88.1 ^88.2 Sun, Y. et al. (2023). Retentive Network: A Successor to Transformer for Large Language Models. https://arxiv.org/abs/2307.08621
↑ ^89.0 ^89.1 ^89.2 ^89.3 Lieber, O. et al. (2024). Jamba: A Hybrid Transformer‑Mamba Language Model. https://arxiv.org/abs/2403.19887
↑ Radford, A. et al. (2018). Improving Language Understanding by Generative Pre‑Training. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
↑ Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805
↑ Dai, Z. et al. (2019). Transformer‑XL. https://arxiv.org/abs/1901.02860
↑ Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
↑ Lewis, M. et al. (2019). BART. https://arxiv.org/abs/1910.13461
↑ Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf
↑ Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150
↑ Zaheer, M. et al. (2020). BigBird. https://arxiv.org/abs/2007.14062
↑ Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165
↑ Su, J. et al. (2021). RoPE. https://arxiv.org/abs/2104.09864
↑ Press, O. et al. (2021/2022). ALiBi. https://arxiv.org/abs/2108.12409
↑ Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961
↑ Du, N. et al. (2021). GLaM. https://arxiv.org/pdf/2112.06905.pdf
↑ Hoffmann, J. et al. (2022). Chinchilla. https://arxiv.org/abs/2203.15556
↑ Chowdhery, A. et al. (2022). PaLM. https://arxiv.org/abs/2204.02311
↑ Shazeer, N. (2019). Fast Transformer Decoding. https://arxiv.org/abs/1911.02150
↑ Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135
↑ Touvron, H. et al. (2023). LLaMA. https://arxiv.org/abs/2302.13971
↑ Zhang, B.; Sennrich, R. (2019). RMSNorm. https://arxiv.org/abs/1910.07467
↑ Shazeer, N. (2020). GLU Variants. https://arxiv.org/abs/2002.05202
↑ Chen, S. et al. (2023). Position Interpolation. https://arxiv.org/abs/2306.15595
↑ Peng, B. et al. (2023). YaRN. https://arxiv.org/abs/2309.00071
↑ Kwon, W. et al. (2023). vLLM/PagedAttention. https://arxiv.org/abs/2309.06180
↑ OpenAI (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
↑ Gemini Team (2023). Gemini. https://arxiv.org/abs/2312.11805
↑ Gu, A.; Dao, T. (2023). Mamba. https://arxiv.org/abs/2312.00752
↑ Sun, Y. et al. (2023). RetNet. https://arxiv.org/abs/2307.08621
↑ Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088
↑ Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b
↑ Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
↑ Lieber, O. et al. (2024). Jamba. https://arxiv.org/abs/2403.19887
↑ Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608

[Vaswani2017-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Vaswani, A. et al. (2017). Attention Is All You Need. https://arxiv.org/abs/1706.03762

[2] Devlin, J. et al. (2019). BERT. https://arxiv.org/abs/1810.04805

[3] Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165

[4] Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf

[5] Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805

[6] Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. https://arxiv.org/abs/1907.11692

[7] He, P. et al. (2021). DeBERTa: Decoding‑enhanced BERT with Disentangled Attention. https://arxiv.org/abs/2006.03654

[8] Clark, K. et al. (2020). ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators. https://arxiv.org/abs/2003.10555

[9] Zaheer, M. et al. (2020). Big Bird: Transformers for Longer Sequences. https://arxiv.org/abs/2007.14062

[10] Beltagy, I. et al. (2020). Longformer: The Long‑Document Transformer. https://arxiv.org/abs/2004.05150

[11] Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need (Multi‑Query Attention). https://arxiv.org/abs/1911.02150

[12] Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. https://arxiv.org/abs/2305.13245

[13] Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192

[14] Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention (vLLM). https://arxiv.org/abs/2309.06180

[15] vLLM Docs (2024–2025). Continuous batching, Chunked prefill, Structured outputs. https://docs.vllm.ai/

[16] Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165

[17] Ouyang, L. et al. (2022). InstructGPT (RLHF). https://arxiv.org/abs/2203.02155

[18] Rafailov, R. et al. (2023). Direct Preference Optimization. https://arxiv.org/abs/2305.18290

[19] Shazeer, 2019. https://arxiv.org/abs/1911.02150

[20] Ainslie, 2023. https://arxiv.org/abs/2305.13245

[21] Leviathan, 2023. https://arxiv.org/abs/2211.17192

[22] Kwon, 2023. https://arxiv.org/abs/2309.06180

[23] vLLM Docs. https://docs.vllm.ai/

[24] OpenAI (2024). Structured Outputs. https://openai.com/index/introducing-structured-outputs-in-the-api/

[25] vLLM Docs — Structured outputs. https://docs.vllm.ai/en/v0.9.2/features/structured_outputs.html

[26] Kwon, 2023. https://arxiv.org/abs/2309.06180

[27] Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165

[28] Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971

[29] Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774

[30] Meta AI (2024). Introducing Meta Llama 3. https://ai.meta.com/blog/meta-llama-3/

[31] Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf

[32] Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training. https://arxiv.org/abs/1910.13461

[33] Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer. JMLR. https://jmlr.org/papers/volume21/20-074/20-074.pdf

[34] Lewis, M. et al. (2019). BART: Denoising Sequence‑to‑Sequence Pre‑training for NLG, Translation, and Comprehension. https://arxiv.org/abs/1910.13461

[35] Chung, H. W. et al. (2022). Scaling Instruction‑Finetuned Language Models (FLAN‑T5). https://arxiv.org/abs/2210.11416

[36] Shazeer, N. (2020). GLU Variants Improve Transformer. https://arxiv.org/abs/2002.05202

[37] Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805

[38] Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165

[39] Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971

[40] Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311

[41] Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361

[42] Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556

[43] Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595

[44] Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071

[45] Dao, T. et al. (2022–2024). FlashAttention (1/2/3). https://arxiv.org/abs/2205.14135 ; https://arxiv.org/abs/2307.08691 ; https://arxiv.org/abs/2407.08608

[46] Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150

[47] Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245

[48] Kwon, W. et al. (2023). Efficient Memory Management for LLM Serving with PagedAttention. https://arxiv.org/abs/2309.06180

[49] Leviathan, Y. et al. (2023). Fast Inference from Transformers via Speculative Decoding. https://arxiv.org/abs/2211.17192

[Switch-50] 50.0 ^50.1 ^50.2 Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961

[GLAM-51] 51.0 ^51.1 ^51.2 Du, N. et al. (2021). GLaM: Efficient Scaling of Language Models with Mixture‑of‑Experts. https://arxiv.org/pdf/2112.06905.pdf

[Mixtral8x7-52] Mistral AI (2023). Mixtral of Experts. https://mistral.ai/news/mixtral-of-experts/

[Mixtral8x7_paper-53] Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088

[Mixtral8x22-54] Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b

[DBRX-55] 55.0 ^55.1 Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

[NVIDIA_MoE-56] NVIDIA (2024). Applying Mixture of Experts in LLM Architectures. https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/

[ExpertChoice-57] Zhou, Y. et al. (2022). Mixture‑of‑Experts with Expert Choice Routing. https://arxiv.org/abs/2202.09368

[SparseUpcycling-58] Komatsuzaki, A. et al. (2022). Sparse Upcycling: Training Mixture‑of‑Experts from Dense Checkpoints. https://arxiv.org/abs/2212.05055

[RAG-59] 59.0 ^59.1 ^59.2 ^59.3 Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. https://arxiv.org/abs/2005.11401

[60] NVIDIA Blog (2025). What is Retrieval‑Augmented Generation (RAG). https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/

[61] Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150

[62] Zaheer, M. et al. (2020). Big Bird. https://arxiv.org/abs/2007.14062

[63] Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135

[64] Dao, T. et al. (2023). FlashAttention‑2. https://arxiv.org/abs/2307.08691

[65] Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608

[66] Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. https://arxiv.org/abs/1911.02150

[67] Ainslie, J. et al. (2023). GQA. https://arxiv.org/abs/2305.13245

[68] Press, O. et al. (2022). ALiBi. https://arxiv.org/abs/2108.12409

[69] Su, J. et al. (2021). RoFormer: Rotary Position Embedding. https://arxiv.org/abs/2104.09864

[70] Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971

[71] Chen, S. et al. (2023). Extending Context Window via Positional Interpolation. https://arxiv.org/abs/2306.15595

[72] Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of LLMs. https://arxiv.org/abs/2309.00071

[73] Dai, Z. et al. (2019). Transformer‑XL: Attentive Language Models Beyond a Fixed‑Length Context. https://arxiv.org/abs/1901.02860

[74] Kitaev, N.; Kaiser, L.; Levskaya, A. (2020). Reformer: The Efficient Transformer. https://arxiv.org/abs/2001.04451

[75] Choromanski, K. et al. (2021). Rethinking Attention with Performers. https://arxiv.org/abs/2009.14794

[76] Wang, S. et al. (2020). Linformer: Self‑Attention with Linear Complexity. https://arxiv.org/abs/2006.04768

[77] Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. https://arxiv.org/abs/2305.14314

[78] Hinton, G. et al. (2015). Distilling the Knowledge in a Neural Network. https://arxiv.org/abs/1503.02531

[79] Sanh, V. et al. (2019). DistilBERT. https://arxiv.org/abs/1910.01108

[80] Rajbhandari, S. et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion‑Parameter Models. https://www.microsoft.com/en-us/research/publication/zero-memory-optimizations-toward-training-trillion-parameter-models/

[81] Shoeybi, M. et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. https://arxiv.org/abs/1909.08053

[82] Hugging Face. Transformers Documentation. https://huggingface.co/docs/transformers

[83] Hugging Face. Accelerate Documentation. https://huggingface.co/docs/accelerate

[84] Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361

[85] Hoffmann, J. et al. (2022). Training Compute‑Optimal Large Language Models. https://arxiv.org/abs/2203.15556

[S4-86] 86.0 ^86.1 ^86.2 ^86.3 ^86.4 Gu, A.; Goel, K.; Ré, C. (2021). Efficiently Modeling Long Sequences with Structured State Spaces (S4). https://arxiv.org/abs/2111.00396

[Mamba-87] 87.0 ^87.1 ^87.2 ^87.3 ^87.4 Gu, A.; Dao, T. (2023/2024). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. https://arxiv.org/abs/2312.00752

[RetNet-88] 88.0 ^88.1 ^88.2 Sun, Y. et al. (2023). Retentive Network: A Successor to Transformer for Large Language Models. https://arxiv.org/abs/2307.08621

[Jamba-89] 89.0 ^89.1 ^89.2 ^89.3 Lieber, O. et al. (2024). Jamba: A Hybrid Transformer‑Mamba Language Model. https://arxiv.org/abs/2403.19887

[90] Radford, A. et al. (2018). Improving Language Understanding by Generative Pre‑Training. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[91] Devlin, J. et al. (2019). BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805

[92] Dai, Z. et al. (2019). Transformer‑XL. https://arxiv.org/abs/1901.02860

[93] Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[94] Lewis, M. et al. (2019). BART. https://arxiv.org/abs/1910.13461

[95] Raffel, C. et al. (2020). T5. https://jmlr.org/papers/volume21/20-074/20-074.pdf

[96] Beltagy, I. et al. (2020). Longformer. https://arxiv.org/abs/2004.05150

[97] Zaheer, M. et al. (2020). BigBird. https://arxiv.org/abs/2007.14062

[98] Brown, T. et al. (2020). Language Models are Few‑Shot Learners. https://arxiv.org/abs/2005.14165

[99] Su, J. et al. (2021). RoPE. https://arxiv.org/abs/2104.09864

[100] Press, O. et al. (2021/2022). ALiBi. https://arxiv.org/abs/2108.12409

[101] Fedus, W.; Zoph, B.; Shazeer, N. (2021/2022). Switch Transformers. https://arxiv.org/abs/2101.03961

[102] Du, N. et al. (2021). GLaM. https://arxiv.org/pdf/2112.06905.pdf

[103] Hoffmann, J. et al. (2022). Chinchilla. https://arxiv.org/abs/2203.15556

[104] Chowdhery, A. et al. (2022). PaLM. https://arxiv.org/abs/2204.02311

[105] Shazeer, N. (2019). Fast Transformer Decoding. https://arxiv.org/abs/1911.02150

[106] Dao, T. et al. (2022). FlashAttention. https://arxiv.org/abs/2205.14135

[107] Touvron, H. et al. (2023). LLaMA. https://arxiv.org/abs/2302.13971

[108] Zhang, B.; Sennrich, R. (2019). RMSNorm. https://arxiv.org/abs/1910.07467

[109] Shazeer, N. (2020). GLU Variants. https://arxiv.org/abs/2002.05202

[110] Chen, S. et al. (2023). Position Interpolation. https://arxiv.org/abs/2306.15595

[111] Peng, B. et al. (2023). YaRN. https://arxiv.org/abs/2309.00071

[112] Kwon, W. et al. (2023). vLLM/PagedAttention. https://arxiv.org/abs/2309.06180

[113] OpenAI (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774

[114] Gemini Team (2023). Gemini. https://arxiv.org/abs/2312.11805

[115] Gu, A.; Dao, T. (2023). Mamba. https://arxiv.org/abs/2312.00752

[116] Sun, Y. et al. (2023). RetNet. https://arxiv.org/abs/2307.08621

[117] Jiang, A.Q. et al. (2024). Mixtral of Experts. https://arxiv.org/abs/2401.04088

[118] Mistral AI (2024). Mixtral 8x22B. https://mistral.ai/news/mixtral-8x22b

[119] Databricks (2024). Introducing DBRX. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

[120] Lieber, O. et al. (2024). Jamba. https://arxiv.org/abs/2403.19887

[121] Shah, M. et al. (2024). FlashAttention‑3. https://arxiv.org/abs/2407.08608

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

Arquiteturas de LLM

Contents

Famílias de arquiteturas de LLM (transformers)

1. Encoder-only (apenas codificador, apenas encoder)

2. Decoder-only (apenas decodificador, apenas decoder)

3. Encoder-decoder (codificador-decodificador, encoder-decoder)

Transformers densos (dense)

Princípio de funcionamento e arquitetura

Exemplos de modelos e escala

Vantagens

Desvantagens

Limitações de escalonamento e contexto

Otimizações modernas

Modelos esparsos (Sparse Models) e Mixture-of-Experts (MoE)

Exemplos de modelos e escala

Vantagens

Limitações

Melhorias modernas

Relevância da aplicação de MoE

Retrieval-Augmented Generation (RAG)

Mecanismos de atenção e trabalho com o contexto

Otimizações de modelos e infraestrutura de treinamento

Leis de escalonamento e treinamento compute-optimal

Modelos de Espaço de Estados (State Space Models, SSM)

O problema principal e a solução

Princípio de funcionamento

Principais arquiteturas e híbridos

Vantagens

Limitações e práticas atuais

Comparação de abordagens (generalizada)

Aplicações práticas

Evolução das arquiteturas

Links

Literatura

Notas

Navigation menu

Arquiteturas de LLM

Famílias de arquiteturas de LLM (transformers)

1. Encoder-only (apenas codificador, apenas encoder)

2. Decoder-only (apenas decodificador, apenas decoder)

3. Encoder-decoder (codificador-decodificador, encoder-decoder)

Transformers densos (dense)

Princípio de funcionamento e arquitetura

Exemplos de modelos e escala

Vantagens

Desvantagens

Limitações de escalonamento e contexto

Otimizações modernas

Modelos esparsos (Sparse Models) e Mixture-of-Experts (MoE)

Exemplos de modelos e escala

Vantagens

Limitações

Melhorias modernas

Relevância da aplicação de MoE

Retrieval-Augmented Generation (RAG)

Mecanismos de atenção e trabalho com o contexto

Otimizações de modelos e infraestrutura de treinamento

Leis de escalonamento e treinamento compute-optimal

Modelos de Espaço de Estados (State Space Models, SSM)

O problema principal e a solução

Princípio de funcionamento

Principais arquiteturas e híbridos

Vantagens

Limitações e práticas atuais

Comparação de abordagens (generalizada)

Aplicações práticas

Evolução das arquiteturas

Links

Literatura

Notas

Navigation menu

Search