Prompt (modelo de linguagem)
Prompt (do inglês prompt — "sugestão" ou "solicitação de texto"), no contexto de modelos de linguagem grandes (LLMs), é o texto de entrada ou a instrução que um usuário fornece ao modelo para gerar a resposta desejada[1]. O prompt formula a tarefa para o modelo, incluindo as condições, o contexto e os exemplos necessários. A eficácia do desempenho do modelo depende em grande parte da qualidade do prompt elaborado.
A disciplina que estuda os métodos de desenvolvimento e otimização de solicitações de texto é chamada de engenharia de prompts (prompt engineering). Seu objetivo é obter das modelos de IA respostas o mais relevantes, precisas e seguras possível[2]. Um prompt bem elaborado define a "rota" para o modelo executar a tarefa, ajudando a especificar o contexto necessário e o resultado desejado[1].
História da abordagem
A ideia de controlar o comportamento de LLMs por meio de prompts de texto evoluiu à medida que as capacidades dos próprios modelos cresciam.
Estágios iniciais (GPT-2)
Já em 2019, pesquisadores da OpenAI demonstraram que grandes modelos de linguagem pré-treinados, como o GPT-2, eram capazes de resolver novas tarefas sem treinamento adicional, se fossem formuladas como texto. O trabalho "Language Models are Unsupervised Multitask Learners" marcou uma mudança fundamental: em vez de ajustar o modelo para cada tarefa, tornou-se suficiente formular uma instrução clara na entrada[3].
Avanço com o GPT-3 e o In-Context Learning
O verdadeiro avanço ocorreu com o lançamento do modelo GPT-3 em 2020. Com 175 bilhões de parâmetros, o GPT-3 demonstrou a capacidade de aprendizagem em contexto (in-context learning) — assimilar uma nova tarefa "em tempo real" a partir de alguns exemplos fornecidos diretamente no texto do prompt[3]. Este modo de operação foi denominado few-shot learning ("aprendizagem com poucos exemplos") e mostrou que o escalonamento do tamanho do modelo leva a um desempenho de alta qualidade em tarefas de PNL sem qualquer ajuste fino dos pesos.
Surgimento do Chain-of-Thought (CoT)
O desenvolvimento posterior em 2022 esteve relacionado à melhoria da capacidade dos modelos para o raciocínio lógico complexo. Foram propostos prompts especiais no formato de cadeia de pensamentos (chain-of-thought prompting). Nesses prompts, o modelo recebe não apenas a pergunta, mas também um exemplo de raciocínio sequencial e passo a passo antes da resposta. Isso aumentou notavelmente a precisão das soluções em tarefas aritméticas e lógicas[2]. A pesquisa de Kojima e colegas mostrou que o modelo pode ser estimulado a raciocinar mesmo sem exemplos (zero-shot), simplesmente adicionando a frase "Vamos pensar passo a passo" ao final do prompt[2].
Prompts multimodais
O conceito de prompts expandiu-se para além do texto. Em 2022, com o surgimento de modelos como DALL-E 2 e Stable Diffusion, as solicitações dos usuários em linguagem natural tornaram-se uma interface universal para a geração de imagens e, posteriormente, de música e vídeo.
Tipos e técnicas de aplicação de prompts
Existem vários tipos e técnicas principais de prompts, que são frequentemente combinados.
Zero-shot prompting (Solicitação direta)
O modelo recebe apenas uma instrução ou pergunta sem nenhum exemplo. Neste modo, o LLM se baseia em seu conhecimento geral adquirido durante o pré-treinamento. É adequado para tarefas simples, como tradução ou resumo de texto[1].
Few-shot prompting (Aprendizagem com exemplos)
Além da instrução, o prompt inclui um ou mais exemplos com entradas e saídas esperadas. O modelo "aprende em tempo real" com esses exemplos e aplica a lógica assimilada à nova solicitação. Este método, que implementa o in-context learning, aumenta significativamente a precisão em tarefas onde um formato ou estilo de resposta específico é importante[1].
Cadeia de pensamentos (Chain-of-Thought, CoT)
Um tipo especial de prompt para tarefas que exigem raciocínio complexo (matemática, lógica). No prompt, é incluída uma análise passo a passo ou um plano de solução antes da resposta final. Isso força o modelo a estruturar explicitamente o processo de raciocínio, o que melhora significativamente a qualidade do resultado[2].
Ajuste de prompts (Prompt Tuning)
Uma técnica em que, em vez de escrever manualmente o prompt, é utilizada uma sugestão otimizada automaticamente. O prompt é representado como um conjunto de tokens treináveis especiais (um vetor contínuo) que é adicionado à solicitação do usuário. Treinando apenas este pequeno vetor-prompt, é possível adaptar um grande modelo "congelado" a uma nova tarefa com custos computacionais mínimos[2].
Engenharia de prompts como disciplina
Surgimento da profissão
O crescimento das capacidades dos LLMs levou ao surgimento de uma nova especialização: o engenheiro de prompts. Esses especialistas desenvolvem e depuram os prompts de texto para obter o comportamento desejado da IA. Os engenheiros de prompts utilizam conhecimentos em linguística, lógica e psicologia para estruturar os dados de entrada da maneira mais eficaz[2]. Em 2022-2023, surgiram as primeiras vagas para esta posição, refletindo a alta demanda por habilidades de interação eficaz com sistemas de IA.
Futuro da profissão e automação
A área está se desenvolvendo rapidamente, e seu futuro é objeto de debate. Pesquisas de 2024, por exemplo, da VMware, mostraram que a própria IA é capaz de encontrar formulações de prompts eficazes por meio de tentativa, erro e otimização, muitas vezes superando as humanas[4]. Isso gerou a opinião de que a engenharia de prompts manual pode ser um fenômeno temporário, e com o tempo, ferramentas para seleção automática de prompts se tornarão padrão. No entanto, em 2025, a expertise em engenharia de prompts continua sendo muito requisitada.
Áreas de aplicação
- Processamento de Linguagem Natural: Tarefas clássicas de PLN, como resumo automático de documentos, tradução automática, resposta a perguntas e extração de informações.
- Chatbots e assistentes virtuais: Os prompts ajudam a definir o papel, o estilo de comunicação e o formato das respostas, tornando os sistemas de diálogo mais consistentes e úteis.
- Geração de código: Modelos como o OpenAI Codex são capazes de escrever código de programação a partir de descrições em linguagem natural, o que acelera o desenvolvimento.
- Análise de dados: Com o auxílio de prompts, é possível configurar o modelo para extrair insights de relatórios de texto não estruturados ou gerar hipóteses.
- Educação: Criação de tutores inteligentes que geram tarefas, explicam conceitos complexos e verificam respostas, levando em consideração o nível de preparação do aluno.
- Indústrias criativas: Geração de textos, imagens artísticas, música e roteiros a partir de descrições detalhadas.
Uso malicioso e vulnerabilidades (Prompt Injection)
A natureza aberta da interface dos LLMs levou ao surgimento de uma nova classe de ataques — a injeção de prompt (prompt injection). Um invasor formula um prompt malicioso especial que força o modelo a violar suas instruções originais ou a divulgar informações ocultas[2]. Especialistas consideram isso uma variação de um ataque do tipo "injeção de código", onde, em vez de código, são "injetadas" no sistema instruções de texto maliciosas.
Tipos de ataques
- Jailbreak: Um ataque que permite ao modelo "escapar" das restrições impostas (por exemplo, políticas de moderação) e gerar conteúdo proibido. Um exemplo conhecido é o prompt DAN (Do Anything Now), que forçava o ChatGPT a responder sem censura.
- Prompt Leaking: Um prompt especial que força o modelo a revelar fragmentos de seu prompt de sistema oculto.
- Token Smuggling: Uma instrução maliciosa é disfarçada como uma parte inofensiva do prompt (por exemplo, um trecho de código) para contornar filtros e provocar um comportamento indesejado.
Esses ataques representam um problema sério, pois os métodos tradicionais de cibersegurança não estão bem adaptados para ameaças relacionadas à interpretação de linguagem natural.
Literatura
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
- Li, X. L.; Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation. arXiv:2101.00190.
- Liu, Y. et al. (2021). Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. arXiv:2104.08786.
- Chang, K. et al. (2024). Efficient Prompting Methods for Large Language Models: A Survey. arXiv:2404.01077.
- Li, Z. et al. (2024). Prompt Compression for Large Language Models: A Survey. arXiv:2410.12388.
- Genkina, D. (2024). AI Prompt Engineering Is Dead. IEEE Spectrum. [5].
- Li, W. et al. (2025). A Survey of Automatic Prompt Engineering: An Optimization Perspective. arXiv:2502.11560.
- Wu, Z. et al. (2025). The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models. EMNLP 2025. PDF.
Notas
- ↑ 1.0 1.1 1.2 1.3 «Prompt Engineering for AI Guide». Google Cloud. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 «Техника подсказок». Википедия. [2]
- ↑ 3.0 3.1 Brown, Tom B., et al. «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL], 28 de maio de 2020. [3]
- ↑ «AI Prompt Engineering Is Dead». IEEE Spectrum. [4]