Jailbreaks (LLM) (PT)
Jailbreak (do inglês Jailbreak — literalmente "fuga da prisão") no contexto de grandes modelos de linguagem (LLM) — é um tipo de ataque adversarial que visa contornar os mecanismos de segurança e as restrições incorporadas para obter respostas proibidas ou potencialmente prejudiciais[1]. O jailbreak consiste em "induzir o modelo a gerar respostas maliciosas que contradizem as políticas de uso e as normas sociais, por meio da elaboração de prompts adversariais"[2].
A vulnerabilidade fundamental explorada nos ataques de jailbreak reside em uma característica arquitetônica dos LLMs: os modelos não conseguem distinguir entre instruções e dados por tipo, pois tanto os prompts do sistema quanto a entrada do usuário têm o mesmo formato — strings de texto em linguagem natural[3].
História e desenvolvimento
Período inicial: Injeções de Prompt (2022)
A primeira descoberta documentada da vulnerabilidade a injeções de prompt ocorreu em maio de 2022, quando pesquisadores da empresa Preamble descobriram a suscetibilidade do ChatGPT a esses ataques. Em setembro de 2022, Riley Goodside publicou de forma independente a primeira demonstração pública da vulnerabilidade do GPT-3 no Twitter com o famoso exemplo em que o modelo era instruído a ignorar as instruções anteriores[4].
A era DAN (2022–2023)
Em meados de 2022, surgiram os primeiros prompts "Do Anything Now" (DAN), que eram instruções para um role-playing. A inovação principal foi o uso do role-playing para contornar as restrições de segurança, criando uma "personalidade alternativa" livre das regras[5]. A evolução do DAN levou ao surgimento de cenários complexos com sistemas de tokens (mecanismos de punição/recompensa) e mecanismos de preservação de personagem[6].
Diversificação dos métodos (2023–2024)
A partir de 2023, iniciaram-se pesquisas acadêmicas abrangentes sobre ataques de jailbreak. Em 2024, surgiram os ataques multimodais, que incluem a ocultação de instruções maliciosas em imagens, arquivos de áudio, bem como injeções de prompt visuais por meio de ASCII-art[7].
Período atual (2024–2025)
As técnicas de ataque continuam a se tornar mais complexas. Em novembro de 2024, foi descoberta a técnica "Time Bandit", que explora a confusão temporal no ChatGPT-4o ao formular perguntas como se fossem de períodos históricos (anos 1800-1900)[8].
Métodos técnicos e classificação
Os ataques podem ser classificados pelo acesso ao modelo:
- Ataques de caixa-preta: Sem acesso aos componentes internos do modelo (parâmetros, gradientes).
- Ataques de caixa-branca: Com acesso total aos parâmetros e gradientes do modelo[2].
Taxonomia JailbreakRadar
A classificação JailbreakRadar (Chu et al., 2024) destaca seis categorias principais de ataques:
- Ataques diretos: Prompts maliciosos diretos.
- Ataques indiretos: Estratégias de manipulação em várias etapas.
- Ataques contextuais: Uso do histórico da conversa.
- Ataques de role-playing: Técnicas de personificação de personagens (por exemplo, DAN).
- Ataques de codificação: Métodos de ofuscação para ocultar instruções maliciosas.
- Ataques baseados em modelos (template attacks): Frameworks adversariais estruturados[9].
Mecanismos técnicos
- Geração de sufixos adversariais (GCG): Um método proposto por Zou et al. (2023) que gera automaticamente sufixos adversariais (sequências de tokens) que, quando adicionados a um prompt, têm alta probabilidade de provocar uma resposta maliciosa. O método utiliza otimização baseada em gradiente e demonstra alta taxa de sucesso (até 84% no GPT-4) e portabilidade entre modelos[10].
- Jailbreaking de múltiplos turnos (Many-shot jailbreaking): Um estudo da Anthropic (2024) mostrou que a eficácia dos ataques segue uma lei de potência: à medida que o número de exemplos maliciosos no prompt aumenta, a porcentagem de respostas indesejadas também cresce[11].
Mecanismos de defesa
- Classificadores constitucionais (Anthropic): Filtragem de dados de entrada/saída com base em um conjunto de princípios constitucionais. Este método permitiu reduzir a taxa de sucesso do jailbreak de 86% para 4.4% em avaliações controladas[12].
- Aprendizagem por reforço com feedback humano (RLHF): Treinamento em três etapas (OpenAI), incluindo ajuste fino supervisionado, treinamento de um modelo de recompensa e otimização da política, que demonstrou uma redução significativa na geração de conteúdo tóxico.
- Treinamento adversarial: Treinamento do modelo com exemplos de ataques de jailbreak para aumentar sua resiliência. A eficácia dessa abordagem na redução do sucesso dos ataques é estimada entre 60–80%[1].
- Defesa em múltiplas camadas: Uma estratégia recomendada que inclui validação de entrada, proteção no nível do modelo, monitoramento de saída e monitoramento contínuo em tempo real.
Os ataques de jailbreak a grandes modelos de linguagem representam um problema fundamental de segurança em IA, demonstrando a tensão constante entre as capacidades e o alinhamento dos modelos. O cenário de ataques está se tornando cada vez mais complexo, evoluindo de simples injeções de prompt para ataques multimodais e automatizados sofisticados. As pesquisas mostram que nenhum mecanismo de defesa atual é totalmente resiliente a todas as tentativas de jailbreak. O sucesso nesta área exige investimentos contínuos em pesquisa de segurança, práticas de divulgação responsável e esforços colaborativos entre pesquisadores, a indústria e os reguladores.
Links
Literatura
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
- Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
- Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
- Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
- Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
- Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
- Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
- Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
- Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
- Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.
Notas
- ↑ 1.0 1.1 “A brief history of jailbreaking”. Lil'Log. [1]
- ↑ 2.0 2.1 Yi, J., et al. “Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey”. arXiv:2405.09443. [2]
- ↑ “Jailbreaking LLMs”. Prompting Guide. [3]
- ↑ “Exploring prompt injection attacks”. NCC Group. [4]
- ↑ “Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models”. arXiv:2308.03825. [5]
- ↑ “0xk1h0/ChatGPT_DAN”. GitHub. [6]
- ↑ “ChatGPT "Time-travel" jailbreak lets you bypass its safety guards”. BleepingComputer. [8]
- ↑ Chu, Z., et al. “JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense”. arXiv:2402.12642. [9]
- ↑ Zou, A., et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models”. arXiv:2307.15043. [10]
- ↑ “Many-shot Jailbreaking”. Anthropic. [11]
- ↑ “How we're using 'constitutional AI' to make our models safer”. MIT Technology Review. [12]