Fundamentos Teóricos de LLMs
Fundamentos teóricos dos grandes modelos de linguagem (baseados na arquitetura Transformer) — é o conjunto de princípios matemáticos, estatísticos e da teoria da informação que fundamentam o funcionamento, o treinamento e as capacidades dos grandes modelos de linguagem (LLMs) modernos. Esses fundamentos explicam como os modelos construídos sobre a arquitetura Transformer são capazes de compreender e gerar linguagem humana com um alto grau de coerência.
Fundamentos Arquitetônicos: a Arquitetura Transformer
Os LLMs modernos são quase inteiramente baseados na arquitetura Transformer, apresentada em 2017 no artigo "Attention Is All You Need". Essa arquitetura abandonou as camadas recorrentes (como em RNNs e LSTMs), apostando no mecanismo de atenção (attention), o que permitiu processar eficientemente sequências longas e paralelizar os cálculos.
Mecanismo de Autoatenção (Self-Attention)
Este é o núcleo da arquitetura Transformer. O mecanismo de autoatenção permite que o modelo pondere a importância de cada palavra (token) em uma sequência em relação a todas as outras palavras na mesma sequência. Para cada token, são criados três vetores:
- Query (Q, Consulta): um vetor que representa a palavra atual.
- Key (K, Chave): um vetor com o qual as consultas de outras palavras são comparadas.
- Value (V, Valor): um vetor que contém a informação sobre a palavra que será passada adiante.
A pontuação da atenção é calculada como um produto escalar em escala (scaled dot-product):
onde é a dimensionalidade dos vetores de chave. Esse mecanismo permite que o modelo capture dependências contextuais complexas, independentemente da distância entre as palavras.
Atenção Multi-Cabeça (Multi-Head Attention) — é a execução paralela de vários desses cálculos com diferentes matrizes de projeção, o que permite ao modelo focar simultaneamente em diferentes aspectos da sintaxe e da semântica.
Tipos de Arquiteturas Baseadas no Transformer
Existem três variantes principais para o uso dos componentes do Transformer:
- Encoder-Decoder (Codificador-Decodificador): A arquitetura clássica para tarefas de conversão de sequência para sequência (por exemplo, tradução automática). O codificador processa a sequência de entrada, e o decodificador gera a sequência de saída. Exemplos: T5, BART.
- Apenas Encoder (Encoder-Only): Modelos que utilizam apenas a pilha de codificadores. Eles são excelentes para tarefas que exigem uma compreensão profunda do contexto de toda a sequência (classificação de texto, reconhecimento de entidades nomeadas). Exemplo: BERT.
- Apenas Decoder (Decoder-Only): Modelos que utilizam apenas a pilha de decodificadores. Eles operam de forma autorregressiva, prevendo o próximo token com base nos anteriores. Este é o padrão para modelos generativos. Exemplos: GPT, LLaMA, Claude.
Codificação Posicional (Positional Encoding)
Como o mecanismo de autoatenção não considera a ordem das palavras, a codificação posicional é adicionada à arquitetura. Vetores que codificam a posição dos tokens na sequência são somados aos seus embeddings. No modelo original, utilizavam-se funções sinusoidais:
Nos modelos modernos, também são utilizadas codificações posicionais aprendidas e rotacionais (Rotary Position Embeddings, RoPE).
Princípios de Treinamento: da Probabilidade à Otimização
Modelagem de Linguagem como um Problema Probabilístico
A base dos LLMs é a tarefa de modelagem de linguagem — prever a probabilidade de uma sequência de texto. Formalmente, para uma sequência , o modelo estima a probabilidade . Usando a regra da cadeia da probabilidade, isso é decomposto no produto de probabilidades condicionais:
Assim, o treinamento do modelo se resume a prever o próximo token com base no contexto dos tokens anteriores.
Função de Perda e Teoria da Informação
Para avaliar a qualidade das previsões e treinar o modelo, utiliza-se a função de perda de entropia cruzada (cross-entropy loss). Ela mede a divergência entre a distribuição de probabilidade prevista pelo modelo () e a distribuição verdadeira (), onde o próximo token correto tem probabilidade 1 e os demais, 0.
Minimizar a entropia cruzada é equivalente a maximizar a verossimilhança dos dados de treinamento.
Uma métrica de qualidade relacionada é a perplexidade, que é definida como a exponencial da entropia cruzada: . Intuitivamente, a perplexidade indica o número médio de opções das quais o modelo "escolhe" a cada passo. Quanto menor a perplexidade, mais confiante e preciso é o modelo.
Otimização
O treinamento de um LLM é um processo de minimização da função de perda através do ajuste de bilhões de parâmetros do modelo. Para isso, são utilizados métodos baseados no gradiente descendente. O mais comum é o otimizador Adam (Adaptive Moment Estimation) e suas variantes (por exemplo, AdamW), que ajustam adaptativamente a taxa de aprendizado para cada parâmetro.
Paradigmas de Treinamento
- Pré-treinamento (Pre-training): O modelo é treinado em enormes corpus de texto não rotulados (Common Crawl, The Pile, C4) usando tarefas auto-supervisionadas, como:
- Modelagem de linguagem causal (Causal Language Modeling - CLM): Previsão do próximo token (usado no GPT).
- Modelagem de linguagem mascarada (Masked Language Modeling - MLM): Recuperação de tokens mascarados aleatoriamente no texto (usado no BERT).
- Ajuste fino (Fine-tuning): Após o pré-treinamento, o modelo é adaptado para tarefas específicas em conjuntos de dados rotulados menores.
- Alinhamento (Alignment): Uma etapa especial de ajuste fino, focada em alinhar o comportamento do modelo com as preferências e valores humanos. O método chave é o RLHF (Reinforcement Learning from Human Feedback), onde o modelo é ajustado usando um sinal de recompensa de um modelo que prevê as preferências humanas.
Leis de Escala e Habilidades Emergentes
Estudos empíricos mostraram que o desempenho dos LLMs melhora de forma previsível com o aumento de três fatores: o tamanho do modelo (número de parâmetros, ), o tamanho do conjunto de dados de treinamento () e a quantidade de computação (). Essa dependência é descrita por leis de potência (scaling laws).
Uma lei proposta no trabalho da OpenAI (Kaplan et al., 2020) mostra que a função de perda diminui como uma função de potência de , e . Um trabalho posterior da DeepMind (Hoffmann et al., 2022) refinou essas leis (leis de Chinchilla), mostrando que, para um treinamento ótimo, é necessário aumentar de forma equilibrada tanto o tamanho do modelo quanto o volume de dados.
Uma consequência importante do escalonamento é o surgimento de habilidades emergentes — saltos qualitativos no desempenho, quando o modelo começa a resolver tarefas para as quais não foi explicitamente treinado (por exemplo, aritmética, raciocínio lógico, escrita de código). Essas habilidades geralmente estão ausentes em modelos menores e só se manifestam após atingir um certo limiar de escala.
Geração de Texto: Estratégias de Decodificação
Após o treinamento, o modelo gera texto prevendo iterativamente o próximo token. A escolha do próximo token a partir da distribuição de probabilidade fornecida pelo modelo é realizada por meio de várias estratégias de decodificação:
- Busca Gulosa (Greedy Search): Sempre escolhe o token mais provável. É rápido, mas frequentemente leva a textos repetitivos e monótonos.
- Busca em Feixe (Beam Search): A cada passo, mantém as sequências mais prováveis, o que permite encontrar soluções globais mais ótimas.
- Amostragem com Temperatura: As probabilidades dos tokens são ajustadas por um parâmetro de temperatura (). Com , a distribuição se torna mais uniforme (mais criatividade); com , torna-se mais acentuada (menos aleatoriedade).
- Amostragem Top-k: A cada passo, a seleção é limitada aos tokens mais prováveis.
- Amostragem Top-p (Nucleus): A seleção é limitada ao menor conjunto de tokens cuja probabilidade acumulada excede um limiar . Isso permite adaptar dinamicamente o tamanho do conjunto de candidatos.
Problemas Teóricos e Limitações
- Alucinações: A tendência dos modelos de gerar informações factualmente incorretas, mas que soam plausíveis. Isso está relacionado ao fato de que os modelos otimizam a probabilidade do texto, e não sua veracidade.
- Vieses (Bias): Os LLMs herdam e amplificam vieses sociais, culturais e outros presentes nos dados de treinamento.
- Interpretabilidade ("caixa-preta"): Devido ao enorme número de parâmetros, é extremamente difícil entender como o modelo toma suas decisões, o que dificulta a depuração e cria riscos.
- Complexidade Computacional: O mecanismo de autoatenção tem complexidade quadrática em relação ao comprimento da sequência (), o que limita o comprimento máximo do contexto que pode ser processado.
Ver também
- Large language models
- BERT
- GPT
Literatura
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
- Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
- Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.