Decoder-only models (architecture) (Modelos Somente Decodificador)
Modelos somente decodificador (ingl. Decoder-Only Models) — são a classe dominante de arquiteturas de grandes modelos de linguagem (LLMs), baseadas exclusivamente na parte decodificadora (decoder) da arquitetura Transformer. Esses modelos são especializados em tarefas de geração de texto e formam a base da maioria dos chatbots e assistentes de IA modernos.
A principal linha de modelos que popularizou essa abordagem é a série GPT da OpenAI.
Conceito e arquitetura
A ideia principal dos modelos somente decodificador reside na geração autorregressiva de sequências. Isso significa que o modelo prevê o próximo token com base em todos os tokens anteriores que foram gerados. O prompt de entrada (solicitação do usuário) e o texto já gerado são tratados como uma única sequência que o modelo continua.
Arquiteturalmente, o modelo é uma pilha de camadas de decodificador idênticas. Cada camada, ao contrário de um codificador ou de um decodificador completo, contém apenas duas subcamadas principais:
- Autoatenção multi-cabeça mascarada (Masked Multi-Head Self-Attention): Este é o mecanismo-chave que garante a propriedade autorregressiva. Durante o processamento da sequência, uma máscara causal (causal mask) especial impede que cada token "olhe" para os tokens subsequentes. Dessa forma, a previsão para a posição depende apenas dos tokens nas posições .
- Rede neural feed-forward (Feed-Forward Network): Aplica uma transformação não linear à representação de cada token.
Nos modelos somente decodificador, o mecanismo de atenção cruzada (cross-attention) está ausente, pois não há um codificador para o qual "prestar atenção".
Tarefas de pré-treinamento
Os modelos somente decodificador são treinados em uma única, mas muito poderosa, tarefa auto-supervisionada:
Modelagem de linguagem causal (Causal Language Modeling, CLM)
- Princípio de funcionamento: O modelo é treinado para prever o próximo token em uma sequência. A cada passo do treinamento, ele recebe um fragmento de texto como entrada e deve gerar uma distribuição de probabilidade para o próximo token.
- Objetivo: Maximizar a probabilidade do próximo token correto em volumes massivos de dados textuais. Esta tarefa, aparentemente simples, força o modelo a aprender gramática, sintaxe, fatos sobre o mundo e padrões complexos da linguagem.
Aplicações
Graças à sua natureza autorregressiva, os modelos somente decodificador são ideais para qualquer tarefa que exija a geração de texto:
- Geração de texto em formato livre: Escrita de artigos, poemas, roteiros, etc.
- Sistemas de diálogo e chatbots: Respostas a perguntas de usuários em estilo conversacional.
- Summarização: Criação de resumos de textos longos.
- Tradução automática: Embora modelos codificador-decodificador sejam frequentemente usados para isso, os modelos somente decodificador também podem lidar com a tradução se a tarefa for formulada no prompt (por exemplo, "Traduza do inglês para o português: ...").
- Escrita de código: Geração de código a partir de uma descrição textual.
- Aprendizagem no contexto (In-context learning): Devido à sua escala, os grandes modelos decodificadores demonstram a capacidade de resolver novas tarefas recebendo apenas alguns exemplos (few-shot) ou mesmo nenhum (zero-shot) diretamente no prompt, sem a necessidade de ajuste fino (fine-tuning).
Principais modelos e sua evolução
- Série GPT (2018-presente): Pioneiros e popularizadores da abordagem. O GPT-1 mostrou a eficácia do pré-treinamento, o GPT-2 demonstrou o poder da escalabilidade e o GPT-3 revelou as capacidades de few-shot. O ChatGPT e o GPT-4 tornaram essa arquitetura o padrão para assistentes de IA.
- LLaMA (2023-presente): Uma série de modelos de código aberto da Meta que democratizou o acesso a LLMs poderosos e estimulou uma onda de inovação na comunidade.
- Claude (2023-presente): Uma família de modelos da Anthropic focada em segurança e controlabilidade por meio da IA Constitucional (Constitutional AI).
- PaLM e Gemini (2022-presente): Os principais modelos do Google. O Gemini também é um modelo somente decodificador nativamente multimodal.
Comparação com outras arquiteturas
| Arquitetura | Tarefa principal | Direção do contexto | Modelos típicos |
|---|---|---|---|
| Somente decodificador | Geração de texto | Unidirecional (da esquerda para a direita) | GPT, LLaMA, Claude, Gemini |
| Somente codificador | Compreensão de texto | Bidirecional | BERT, RoBERTa |
| Codificador-decodificador | Transformação de sequência para sequência | Bidirecional (codificador) + Unidirecional (decodificador) | T5, BART, Transformer original |
Ver também
- GPT