GPT (OpenAI) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

GPT (Generative Pre-trained Transformer) é uma família de grandes modelos de linguagem (LLMs), desenvolvida pela empresa OpenAI. Os modelos GPT são construídos sobre a arquitetura Transformer e implementam o paradigma de pré-treinamento generativo: na primeira fase, o modelo é treinado em vastos corpos de texto sem rotulagem explícita e, em seguida, pode ser ajustado (fine-tuned) para tarefas específicas.

Nomenclatura

A sigla GPT significa Generative Pre-trained Transformer (Transformer Generativo Pré-treinado).

  • Generativo (Generative): significa que o modelo é capaz de criar (gerar) novo conteúdo, como texto.
  • Pré-treinado (Pre-trained): indica que o modelo passa por uma extensa fase de treinamento inicial em um grande volume de dados (por exemplo, textos da internet). Após o pré-treinamento, o modelo frequentemente pode ser "ajustado" (fine-tuned) para realizar tarefas mais específicas.
  • Transformer: é o nome de uma arquitetura de rede neural específica, que é a inovação-chave por trás do GPT e de muitos outros modelos de IA modernos.

A principal característica do GPT é que o treinamento ocorre de forma autorregressiva — o modelo prevê o próximo token com base no contexto anterior. Ou seja, o modelo é treinado para maximizar a probabilidade do próximo token, conhecendo a sequência de tokens anteriores. Durante o treinamento, o erro de previsão do próximo elemento é minimizado, o que permite a formação de textos com alta coerência e coesão.

Processo de geração de texto no GPT

O modelo GPT gera texto sequencialmente, token por token, seguindo o seguinte esquema iterativo:

  • Recebe como entrada uma sequência de texto inicial (prompt, texto semente).
  • Calcula a distribuição de probabilidade sobre todos os tokens do vocabulário para o próximo elemento do texto.
  • Seleciona o próximo token:
    • seja pela maior probabilidade (seleção gulosa),
    • seja por amostragem estocástica (sampling),
    • seja usando estratégias de filtragem especiais (top-k, top-p).
  • Adiciona o token selecionado à sequência atual.
  • A sequência atualizada é novamente fornecida como entrada ao modelo para prever o próximo token.

Arquitetura Transformer: processamento de texto

O processo de processamento de dados dentro do Transformer para prever o próximo token inclui várias etapas principais:

  • Tokenização (Tokenization). O texto de entrada é dividido em tokens — pequenas unidades de texto que podem ser palavras, partes de palavras ou sinais de pontuação. No modelo GPT-3, por exemplo, o vocabulário inclui cerca de 50.257 tokens.
  • Embedding de tokens (Embeddings). Cada token é convertido em um vetor de comprimento fixo usando uma matriz de embeddings (W_E). Os vetores codificam o significado dos tokens: tokens semanticamente próximos estão localizados próximos no espaço multidimensional. No modelo GPT-3, a dimensionalidade dos embeddings é de 12.288.
  • Processamento nas camadas do Transformer.
    • Blocos de Atenção (Attention Blocks): Cada token interage com outros tokens na sequência. O mecanismo de atenção permite levar em conta o contexto e interpretar corretamente o significado das palavras.
    • Camadas Totalmente Conectadas (Feed-Forward Layers): Após a atenção, cada token é processado separadamente por uma rede neural de duas camadas com ativação não linear.
  • Transformação Inversa e Softmax. Após todas as camadas, o vetor processado é transformado de volta ao espaço de tokens usando uma matriz (W_U), que muitas vezes é a versão transposta de W_E. O vetor de logits resultante é normalizado usando a função Softmax para obter uma distribuição de probabilidade sobre todos os tokens.
  • Seleção do Próximo Token (Sampling). O próximo token é selecionado com base na distribuição de probabilidades. O parâmetro de temperatura (temperature) controla a aleatoriedade da seleção: com temperatura 0, o token mais provável é escolhido; com temperaturas mais altas, a probabilidade de selecionar opções menos prováveis aumenta, o que contribui para uma maior diversidade no texto.

Modelos GPT

  • GPT-1 (2018): primeiro modelo da família; cerca de 117 milhões de parâmetros; treinamento em duas etapas (pré-treinamento + ajuste fino em tarefas de NLP).
  • GPT-2 (2019): 1,5 bilhão de parâmetros; treinado no corpus WebText; pela primeira vez capaz de gerar textos longos e coerentes; melhoria na qualidade da geração zero-shot.
  • GPT-3 (2020): 175 bilhões de parâmetros; treinamento em larga escala em uma combinação de Common Crawl, Books, Wikipedia; forte desenvolvimento das capacidades few-shot e zero-shot.
  • GPT-3.5 (2022): versão intermediária entre GPT-3 e GPT-4; melhoria no seguimento de instruções graças ao treinamento com feedback humano (RLHF); janela de contexto aumentada para 4096 tokens.
  • GPT-4 (2023): modelo multimodal com entrada de texto e imagem; expansão estável do contexto para 8.192 e 32.768 tokens; aumento significativo na precisão, robustez e lógica de raciocínio.
  • GPT-4 Turbo (2023): versão otimizada do GPT-4; janela de contexto aumentada para 128.000 tokens; latência e custo de operação mais baixos.
  • GPT-4o (2024): modelo multimodal de nova geração (texto, imagem, áudio); velocidade e precisão de resposta muito altas; janela de contexto de 128.000 tokens.
  • GPT-4.5 (2025): versão de pesquisa baseada no GPT-4 com melhor compreensão de prompts do usuário, redução de erros e geração otimizada de respostas complexas; janela de contexto de 128.000 tokens.
  • GPT-4.1 (2025): versão aprimorada da família GPT-4 com uma janela de contexto de até 1.048.576 tokens e suporte à multimodalidade.

GPT-1

O primeiro modelo, GPT-1, foi apresentado pela OpenAI em 2018 no artigo "Improving Language Understanding by Generative Pre-Training" . O modelo continha cerca de 117 milhões de parâmetros e era baseado na arquitetura Transformer. O treinamento do GPT-1 ocorreu em duas etapas: uma fase de pré-treinamento generativo não supervisionado (pre-training), seguida por uma fase de ajuste fino supervisionado (fine-tuning).

Na fase de pré-treinamento, o modelo foi treinado no corpus BookCorpus, que inclui mais de 7.000 livros não publicados de vários gêneros. Uma característica desse corpus era a presença de longos trechos contínuos de texto, o que foi crucial para que o modelo desenvolvesse a capacidade de processar dependências textuais complexas e de longo alcance.

Na fase de ajuste fino, o modelo foi adaptado para resolver tarefas especializadas de processamento de linguagem natural, incluindo:

  • Resposta a perguntas (Question Answering, QA) — formulação de uma resposta correta com base em um contexto textual fornecido;
  • Reconhecimento de implicação textual (Natural Language Inference, NLI) — determinação da relação lógica entre dois textos: implicação, contradição ou neutralidade;
  • Avaliação de similaridade semântica (Semantic Textual Similarity) — medição do grau de proximidade de significado entre duas sequências de texto.

Graças a essa abordagem, o GPT-1 demonstrou uma superioridade significativa sobre modelos anteriores em vários benchmarks padrão para tarefas de compreensão de texto.

O desenvolvimento do GPT-1 demonstrou uma série de avanços e descobertas importantes na área de processamento de linguagem natural (PLN):

  • Eficácia do pré-treinamento generativo. Foi empiricamente confirmado que o pré-treinamento em grandes corpora de texto não rotulado permite que o modelo adquira representações linguísticas universais, adequadas para aplicação posterior em várias tarefas aplicadas sem a necessidade de mudanças arquitetônicas fundamentais.
  • Universalidade da arquitetura Transformer. O uso de um decoder Transformer multicamadas permitiu que o modelo processasse com sucesso dependências de longo prazo no texto, o que antes era difícil para modelos baseados em redes neurais recorrentes.
  • Redução da dependência de dados rotulados. O trabalho confirmou que o pré-treinamento em larga escala em dados não rotulados pode reduzir significativamente a quantidade de dados rotulados necessários para alcançar alta qualidade em tarefas-alvo.
  • Base para o desenvolvimento futuro. Os resultados do GPT-1 estabeleceram as bases conceituais e técnicas para as versões subsequentes dos modelos da família GPT (GPT-2, GPT-3 e além).

GPT-2

O modelo GPT-2 foi apresentado pela OpenAI em fevereiro de 2019. Ele superou significativamente seu predecessor em tamanho: a versão completa do modelo continha cerca de 1,5 bilhão de parâmetros. Diferentemente do GPT-1, que foi treinado no corpus BookCorpus (~5 GB), o GPT-2 foi treinado em um corpus especialmente compilado chamado WebText, com cerca de 40 GB, incluindo dados de texto de fontes da internet de alta qualidade. O aumento tanto no tamanho do modelo quanto no volume de dados de treinamento permitiu ao GPT-2 melhorar significativamente a qualidade da geração de texto: ele demonstrou a capacidade de criar artigos, histórias e até mesmo trechos coerentes de prosa ficcional.

No GPT-2, foi utilizada uma arquitetura de decoder Transformer autorregressivo, análoga à do GPT-1, sem alterações significativas. O modelo consistia em 48 camadas de autoatenção, tinha um tamanho de estado oculto de 1600 e incluía cerca de 1,5 bilhão de parâmetros. O treinamento é realizado na tarefa de prever o próximo token com base no contexto anterior, usando um mecanismo de atenção mascarada.

Uma das principais distinções do GPT-2 foi que o modelo demonstrou pela primeira vez alta eficácia no modo de aprendizado zero-shot — a capacidade de resolver novas tarefas sem passar por um ajuste fino explícito com exemplos para essas tarefas. O modelo foi treinado em um grande corpus de textos generalizados e não passou por treinamento especializado em dados de tarefas específicas. A avaliação foi realizada no modo zero-shot, no qual o modelo executava tarefas exclusivamente com base no conhecimento adquirido durante o pré-treinamento. Em várias tarefas de modelagem de linguagem, o GPT-2 alcançou uma qualidade comparável ou superior aos resultados de modelos treinados especificamente em conjuntos de dados especializados (por exemplo, Wikipédia, textos de notícias, livros).

GPT-3

O modelo GPT-3 foi apresentado pela OpenAI em junho de 2020. Ele se tornou o próximo passo no desenvolvimento de Transformers generativos após o GPT-2 e se destacou pela escala de sua arquitetura, com 175 bilhões de parâmetros, o que o tornou o maior modelo de linguagem da época.

A arquitetura do GPT-3 permaneceu fundamentalmente a mesma — um decoder Transformer autorregressivo multicamadas, sem mudanças radicais. As principais melhorias de desempenho foram alcançadas através do aumento do número de camadas, da largura das camadas ocultas e da escala do treinamento. O modelo foi treinado em uma combinação de vários grandes corpora de texto, incluindo Common Crawl, WebText2, Books1, Books2 e a Wikipédia, totalizando cerca de 570 GB de dados.

Uma das principais características do GPT-3 foi sua capacidade de few-shot learning e zero-shot learning: o modelo podia realizar uma ampla gama de tarefas de processamento de linguagem natural, incluindo tradução, sumarização, resposta a perguntas, redação de ensaios e até mesmo programação, com base em apenas alguns exemplos no prompt de texto ou sem exemplos.

GPT-3.5

O modelo GPT-3.5 foi apresentado pela OpenAI no final de 2022 como parte do desenvolvimento evolutivo da família GPT. Ele foi construído com base na arquitetura de decoder Transformer autorregressivo em escala, usada no GPT-3, com melhorias na qualidade da geração de texto, processamento de contexto e capacidade de seguir instruções complexas. O número exato de parâmetros do GPT-3.5 não foi divulgado oficialmente, mas presume-se que seja comparável ao dos modelos GPT-3.

O treinamento do GPT-3.5 incluiu o uso extensivo de métodos de aprendizado por reforço com feedback humano (Reinforcement Learning from Human Feedback, RLHF), o que permitiu aumentar a relevância das respostas fornecidas. O modelo foi treinado em corpora de texto expandidos, incluindo Common Crawl, Books, WebText e outras fontes de alta qualidade. Uma característica do GPT-3.5 foi o aumento da janela de contexto máxima para 4096 tokens em versões populares (por exemplo, gpt-3.5-turbo), o que permitiu processar diálogos mais longos e instruções complexas.

Na prática, o GPT-3.5 foi adaptado para resolver uma ampla gama de tarefas de processamento de linguagem natural, tais como:

  • Geração de texto coerente e lógico;
  • Resposta a perguntas (QA) e compreensão de contexto;
  • Seguimento de instruções de múltiplos passos;
  • Melhor manutenção de contexto de longo prazo em diálogos.

Com base no GPT-3.5, várias versões-chave foram lançadas para diferentes propósitos:

  • text-davinci-002 — o primeiro modelo publicamente disponível baseado no GPT-3.5, otimizado para geração e seguimento de instruções.
  • text-davinci-003 — uma versão aprimorada com uma capacidade ainda maior de raciocínio e geração de textos complexos.
  • gpt-3.5-turbo — a versão mais performática e econômica do GPT-3.5, usada no serviço ChatGPT desde o final de 2022.

GPT-4

O modelo GPT-4 foi apresentado pela OpenAI em 14 de março de 2023 no artigo "GPT-4 Technical Report". Ele marcou o próximo estágio no desenvolvimento da família de modelos de linguagem, oferecendo melhorias significativas na compreensão de texto, na geração de respostas significativas e criativas, e no processamento de dados multimodais. O número exato de parâmetros e os detalhes arquitetônicos do modelo não foram divulgados oficialmente, mas é amplamente aceito que o GPT-4 supera substancialmente o GPT-3.5 em tamanho e complexidade. O treinamento do GPT-4 foi baseado em corpora massivos de texto e multimodais, abrangendo dados de texto, imagens e outros tipos de informação. O modelo utilizou métodos de RLHF (aprendizado por reforço com feedback humano). Uma característica importante do modelo foi o aumento da janela de contexto: até 8.192 tokens na versão básica e até 32.768 tokens na versão estendida (GPT-4 Turbo), o que permitiu trabalhar com textos longos и diálogos complexos.

O treinamento do GPT-4 foi realizado em uma combinação de corpora massivos de texto e multimodais. A parte textual incluiu dados de alta qualidade cuidadosamente selecionados da internet, livros, artigos e repositórios de código. Para a versão multimodal, foram usados conjuntos de dados especializados de imagens com descrições textuais correspondentes.

O treinamento ocorreu em várias etapas:

  • pré-treinamento não supervisionado em larga escala em textos e imagens,
  • ajuste fino supervisionado (supervised fine-tuning) em tarefas especializadas,
  • uma etapa final de aprendizado por reforço com feedback humano (RLHF) para aumentar a confiabilidade, segurança e qualidade da interpretação de instruções.

Para otimizar o processo de treinamento, foram aplicadas técnicas de treinamento distribuído usando milhares de GPUs e otimizadores especializados, capazes de estabilizar o treinamento de modelos extragrandes com arquitetura profunda. Atenção especial foi dada à redução da frequência de erros, à melhoria da resistência dos modelos a "alucinações" e ao aumento da estabilidade da geração em sequências de entrada longas.

Com base no GPT-4, várias versões principais foram lançadas:

  • GPT-4 (março de 2023): versão básica com suporte para entrada de texto e imagem; janela de contexto de 8.192 tokens (versão estendida — 32.768 tokens).
  • GPT-4 Turbo (novembro de 2023): modificação otimizada do GPT-4 com uma janela de contexto aumentada para 128.000 tokens; custos computacionais reduzidos e geração acelerada; suporte para modos de chamada de função (function calling) e saída em JSON.
  • GPT-4o (maio de 2024): versão multimodal de nova geração com capacidade de processar texto, imagens e áudio; velocidade de resposta e qualidade de interação aprimoradas; janela de contexto de 128.000 tokens.
  • GPT-4.5 (fevereiro de 2025): versão de pesquisa com geração aprimorada de textos complexos, maior precisão na execução de instruções e um nível reduzido de alucinações; janela de contexto de 128.000 tokens.
  • GPT-4.1 (abril de 2025): versão estável com expansão radical do contexto para 1.048.576 tokens; eficiência aprimorada em tarefas de programação, trabalho com textos longos e multimodalidade.

GPT-5

Em 7 de agosto de 2025, a OpenAI apresentou o GPT‑5 como seu modelo “mais inteligente, rápido e útil”, com um modo de raciocínio (“thinking”) integrado e foco em cenários do mundo real — escrita, programação, saúde e compreensão multimodal. O GPT‑5 tornou-se o modelo padrão no ChatGPT para todos os usuários autorizados.[1]

O GPT‑5 é um sistema unificado composto por dois componentes principais: uma resposta rápida e econômica para consultas diárias (gpt‑5‑main) e um raciocínio aprofundado para tarefas complexas (gpt‑5‑thinking). Um roteador seleciona em tempo real o modo apropriado com base no tipo de diálogo, complexidade, necessidade de ferramentas e dicas explícitas do usuário (por exemplo, “think hard about this”). Variantes “mini/pro” também estão disponíveis no ChatGPT; um mapa do sistema fornece a correspondência entre os nomes das famílias GPT‑4/o e as variantes do GPT‑5.

Na API, estão disponíveis três tamanhos: `gpt-5`, `gpt-5‑mini` e `gpt-5‑nano` (todos com suporte a texto+visual). O contexto total máximo é de 400 K tokens (até ≈272 K para entrada e até 128 K para raciocínio+saída), que é fixo para toda a família GPT‑5 na API. A página pública indica a mesma métrica e cartões de preços.

Em conjuntos de dados de busca na web e fatuais abertos, o GPT‑5 reduz significativamente as alucinações: aproximadamente 45% menos erros em comparação com o GPT‑4o, e ~80% menos erros em comparação com o OpenAI o3 no modo “thinking”. Também foi registrada uma redução na tendência de “enganar” em testes com tarefas impossíveis.

Evolução dos modelos GPT
Geração Ano de lançamento Número de parâmetros Tamanho do corpus de texto Principais características
GPT-1 2018 ≈117 milhões ≈5 GB (BooksCorpus) Pré-treinamento generativo em grandes corpora, treinamento em duas etapas (pretraining + fine-tuning)
GPT-2 2019 1,5 bilhão ≈40 GB (WebText) Geração de texto aprimorada; publicação parcial do modelo
GPT-3 2020 175 bilhões ≈570 GB (Common Crawl, WebText2, etc.) Aprendizagem em contexto em larga escala; capacidade de aprendizado few-shot e zero-shot sem ajuste fino
GPT-3.5 2022 ~6–175 bilhões (diferentes versões) >570 GB + instruction tuning adicional Estabilidade aprimorada; treinamento para seguir instruções; base do ChatGPT
GPT-4 2023 Não divulgado (estimativas: 500 bilhões+) Não divulgado (supostamente vários trilhões de tokens) Multimodalidade (texto + imagens); precisão aumentada; resistência a alucinações
GPT-4 Turbo 2023 Não divulgado Baseado no treinamento do GPT-4 Aumento do contexto para 128.000 tokens; otimização da velocidade e do custo de geração
GPT-4o 2024 Não divulgado Treinado em dados multimodais Processamento multimodal de texto, imagens e áudio; alta velocidade de resposta
GPT-4.5 2025 Não divulgado Corpora de texto e multimodais expandidos Execução de instruções aprimorada; redução da frequência de erros; lançamento de pesquisa
GPT-4.1 2025 Não divulgado Corpora atualizados; otimização da qualidade Contexto de até 1.048.576 tokens; aumento de desempenho e precisão; multimodalidade


Parâmetros de arquitetura dos modelos GPT
Modelo Ano de lançamento Número de parâmetros Número de camadas Tamanho do estado oculto Número de cabeças de atenção Janela de contexto Tamanho do corpus de treinamento
GPT-1 2018 ≈117 milhões 12 768 12 512 tokens ≈5 GB (BooksCorpus)
GPT-2 2019 1,5 bilhão 48 1600 25 1024 tokens ≈40 GB (WebText)
GPT-3 2020 175 bilhões 96 12.288 96 2048 tokens ≈570 GB (Common Crawl + WebText2 + outros)
GPT-3.5 2022 ~6–175 bilhões (diferentes versões) (estimativa ~96) (estimativa: análogo ao GPT-3) (não divulgado) 4096 tokens Common Crawl expandido + datasets adicionais
GPT-4 2023 (não divulgado, estimativa: 500+ bilhões) (não divulgado) (não divulgado) (não divulgado) 8.192 tokens Supostamente vários trilhões de tokens
GPT-4 Turbo 2023 (não divulgado) (não divulgado) (não divulgado) (não divulgado) 32.768 tokens Versão otimizada do GPT-4 para redução de custos
GPT-4o 2024 (não divulgado) (não divulgado) (não divulgado) (não divulgado) 128.000 tokens Treinado em dados multimodais (texto, áudio, imagem)
GPT-4.5 2025 (não divulgado) (não divulgado) (não divulgado) (não divulgado) 128.000 tokens Execução de instruções aprimorada; redução da frequência de erros
GPT-4.1 2025 (não divulgado) (não divulgado) (não divulgado) (não divulgado) 1.048.576 tokens Multimodalidade; treinamento em escala com aumento de contexto

Notas

  1. “Introducing GPT-5”. 2 de setembro de 2025. [1]

Literatura

  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
  • Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
  • Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.