Decoder-only models (architecture) (Modelos Somente Decodificador)

Modelos somente decodificador (ingl. Decoder-Only Models) — são a classe dominante de arquiteturas de grandes modelos de linguagem (LLMs), baseadas exclusivamente na parte decodificadora (decoder) da arquitetura Transformer. Esses modelos são especializados em tarefas de geração de texto e formam a base da maioria dos chatbots e assistentes de IA modernos.

A principal linha de modelos que popularizou essa abordagem é a série GPT da OpenAI.

Conceito e arquitetura

A ideia principal dos modelos somente decodificador reside na geração autorregressiva de sequências. Isso significa que o modelo prevê o próximo token com base em todos os tokens anteriores que foram gerados. O prompt de entrada (solicitação do usuário) e o texto já gerado são tratados como uma única sequência que o modelo continua.

Arquiteturalmente, o modelo é uma pilha de $N$ camadas de decodificador idênticas. Cada camada, ao contrário de um codificador ou de um decodificador completo, contém apenas duas subcamadas principais:

Autoatenção multi-cabeça mascarada (Masked Multi-Head Self-Attention): Este é o mecanismo-chave que garante a propriedade autorregressiva. Durante o processamento da sequência, uma máscara causal (causal mask) especial impede que cada token "olhe" para os tokens subsequentes. Dessa forma, a previsão para a posição $i$ depende apenas dos tokens nas posições $< i$ .
Rede neural feed-forward (Feed-Forward Network): Aplica uma transformação não linear à representação de cada token.

Nos modelos somente decodificador, o mecanismo de atenção cruzada (cross-attention) está ausente, pois não há um codificador para o qual "prestar atenção".

Tarefas de pré-treinamento

Os modelos somente decodificador são treinados em uma única, mas muito poderosa, tarefa auto-supervisionada:

Modelagem de linguagem causal (Causal Language Modeling, CLM)

Princípio de funcionamento: O modelo é treinado para prever o próximo token em uma sequência. A cada passo do treinamento, ele recebe um fragmento de texto como entrada e deve gerar uma distribuição de probabilidade para o próximo token.
Objetivo: Maximizar a probabilidade do próximo token correto em volumes massivos de dados textuais. Esta tarefa, aparentemente simples, força o modelo a aprender gramática, sintaxe, fatos sobre o mundo e padrões complexos da linguagem.

Aplicações

Graças à sua natureza autorregressiva, os modelos somente decodificador são ideais para qualquer tarefa que exija a geração de texto:

Geração de texto em formato livre: Escrita de artigos, poemas, roteiros, etc.
Sistemas de diálogo e chatbots: Respostas a perguntas de usuários em estilo conversacional.
Summarização: Criação de resumos de textos longos.
Tradução automática: Embora modelos codificador-decodificador sejam frequentemente usados para isso, os modelos somente decodificador também podem lidar com a tradução se a tarefa for formulada no prompt (por exemplo, "Traduza do inglês para o português: ...").
Escrita de código: Geração de código a partir de uma descrição textual.
Aprendizagem no contexto (In-context learning): Devido à sua escala, os grandes modelos decodificadores demonstram a capacidade de resolver novas tarefas recebendo apenas alguns exemplos (few-shot) ou mesmo nenhum (zero-shot) diretamente no prompt, sem a necessidade de ajuste fino (fine-tuning).

Principais modelos e sua evolução

Série GPT (2018-presente): Pioneiros e popularizadores da abordagem. O GPT-1 mostrou a eficácia do pré-treinamento, o GPT-2 demonstrou o poder da escalabilidade e o GPT-3 revelou as capacidades de few-shot. O ChatGPT e o GPT-4 tornaram essa arquitetura o padrão para assistentes de IA.
LLaMA (2023-presente): Uma série de modelos de código aberto da Meta que democratizou o acesso a LLMs poderosos e estimulou uma onda de inovação na comunidade.
Claude (2023-presente): Uma família de modelos da Anthropic focada em segurança e controlabilidade por meio da IA Constitucional (Constitutional AI).
PaLM e Gemini (2022-presente): Os principais modelos do Google. O Gemini também é um modelo somente decodificador nativamente multimodal.

Comparação com outras arquiteturas

Comparação das principais arquiteturas baseadas no Transformer
Arquitetura	Tarefa principal	Direção do contexto	Modelos típicos
Somente decodificador	Geração de texto	Unidirecional (da esquerda para a direita)	GPT, LLaMA, Claude, Gemini
Somente codificador	Compreensão de texto	Bidirecional	BERT, RoBERTa
Codificador-decodificador	Transformação de sequência para sequência	Bidirecional (codificador) + Unidirecional (decodificador)	T5, BART, Transformer original

Ver também

GPT

Decoder-only models (architecture) (Modelos Somente Decodificador)

Contents

Conceito e arquitetura

Tarefas de pré-treinamento

Modelagem de linguagem causal (Causal Language Modeling, CLM)

Aplicações

Principais modelos e sua evolução

Comparação com outras arquiteturas

Ver também

Navigation menu

Decoder-only models (architecture) (Modelos Somente Decodificador)

Conceito e arquitetura

Tarefas de pré-treinamento

Modelagem de linguagem causal (Causal Language Modeling, CLM)

Aplicações

Principais modelos e sua evolução

Comparação com outras arquiteturas

Ver também

Navigation menu

Search