Jailbreaks (LLM) (PT)

Jailbreak (do inglês Jailbreak — literalmente "fuga da prisão") no contexto de grandes modelos de linguagem (LLM) — é um tipo de ataque adversarial que visa contornar os mecanismos de segurança e as restrições incorporadas para obter respostas proibidas ou potencialmente prejudiciais^[1]. O jailbreak consiste em "induzir o modelo a gerar respostas maliciosas que contradizem as políticas de uso e as normas sociais, por meio da elaboração de prompts adversariais"^[2].

A vulnerabilidade fundamental explorada nos ataques de jailbreak reside em uma característica arquitetônica dos LLMs: os modelos não conseguem distinguir entre instruções e dados por tipo, pois tanto os prompts do sistema quanto a entrada do usuário têm o mesmo formato — strings de texto em linguagem natural^[3].

História e desenvolvimento

Período inicial: Injeções de Prompt (2022)

A primeira descoberta documentada da vulnerabilidade a injeções de prompt ocorreu em maio de 2022, quando pesquisadores da empresa Preamble descobriram a suscetibilidade do ChatGPT a esses ataques. Em setembro de 2022, Riley Goodside publicou de forma independente a primeira demonstração pública da vulnerabilidade do GPT-3 no Twitter com o famoso exemplo em que o modelo era instruído a ignorar as instruções anteriores^[4].

A era DAN (2022–2023)

Em meados de 2022, surgiram os primeiros prompts "Do Anything Now" (DAN), que eram instruções para um role-playing. A inovação principal foi o uso do role-playing para contornar as restrições de segurança, criando uma "personalidade alternativa" livre das regras^[5]. A evolução do DAN levou ao surgimento de cenários complexos com sistemas de tokens (mecanismos de punição/recompensa) e mecanismos de preservação de personagem^[6].

Diversificação dos métodos (2023–2024)

A partir de 2023, iniciaram-se pesquisas acadêmicas abrangentes sobre ataques de jailbreak. Em 2024, surgiram os ataques multimodais, que incluem a ocultação de instruções maliciosas em imagens, arquivos de áudio, bem como injeções de prompt visuais por meio de ASCII-art^[7].

Período atual (2024–2025)

As técnicas de ataque continuam a se tornar mais complexas. Em novembro de 2024, foi descoberta a técnica "Time Bandit", que explora a confusão temporal no ChatGPT-4o ao formular perguntas como se fossem de períodos históricos (anos 1800-1900)^[8].

Métodos técnicos e classificação

Os ataques podem ser classificados pelo acesso ao modelo:

Ataques de caixa-preta: Sem acesso aos componentes internos do modelo (parâmetros, gradientes).
Ataques de caixa-branca: Com acesso total aos parâmetros e gradientes do modelo^[2].

Taxonomia JailbreakRadar

A classificação JailbreakRadar (Chu et al., 2024) destaca seis categorias principais de ataques:

Ataques diretos: Prompts maliciosos diretos.
Ataques indiretos: Estratégias de manipulação em várias etapas.
Ataques contextuais: Uso do histórico da conversa.
Ataques de role-playing: Técnicas de personificação de personagens (por exemplo, DAN).
Ataques de codificação: Métodos de ofuscação para ocultar instruções maliciosas.
Ataques baseados em modelos (template attacks): Frameworks adversariais estruturados^[9].

Mecanismos técnicos

Geração de sufixos adversariais (GCG): Um método proposto por Zou et al. (2023) que gera automaticamente sufixos adversariais (sequências de tokens) que, quando adicionados a um prompt, têm alta probabilidade de provocar uma resposta maliciosa. O método utiliza otimização baseada em gradiente e demonstra alta taxa de sucesso (até 84% no GPT-4) e portabilidade entre modelos^[10].
Jailbreaking de múltiplos turnos (Many-shot jailbreaking): Um estudo da Anthropic (2024) mostrou que a eficácia dos ataques segue uma lei de potência: à medida que o número de exemplos maliciosos no prompt aumenta, a porcentagem de respostas indesejadas também cresce^[11].

Mecanismos de defesa

Classificadores constitucionais (Anthropic): Filtragem de dados de entrada/saída com base em um conjunto de princípios constitucionais. Este método permitiu reduzir a taxa de sucesso do jailbreak de 86% para 4.4% em avaliações controladas^[12].
Aprendizagem por reforço com feedback humano (RLHF): Treinamento em três etapas (OpenAI), incluindo ajuste fino supervisionado, treinamento de um modelo de recompensa e otimização da política, que demonstrou uma redução significativa na geração de conteúdo tóxico.
Treinamento adversarial: Treinamento do modelo com exemplos de ataques de jailbreak para aumentar sua resiliência. A eficácia dessa abordagem na redução do sucesso dos ataques é estimada entre 60–80%^[1].
Defesa em múltiplas camadas: Uma estratégia recomendada que inclui validação de entrada, proteção no nível do modelo, monitoramento de saída e monitoramento contínuo em tempo real.

Os ataques de jailbreak a grandes modelos de linguagem representam um problema fundamental de segurança em IA, demonstrando a tensão constante entre as capacidades e o alinhamento dos modelos. O cenário de ataques está se tornando cada vez mais complexo, evoluindo de simples injeções de prompt para ataques multimodais e automatizados sofisticados. As pesquisas mostram que nenhum mecanismo de defesa atual é totalmente resiliente a todas as tentativas de jailbreak. O sucesso nesta área exige investimentos contínuos em pesquisa de segurança, práticas de divulgação responsável e esforços colaborativos entre pesquisadores, a indústria e os reguladores.

Links

Literatura

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.

Notas

↑ ^1.0 ^1.1 “A brief history of jailbreaking”. Lil'Log. [1]
↑ ^2.0 ^2.1 Yi, J., et al. “Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey”. arXiv:2405.09443. [2]
↑ “Jailbreaking LLMs”. Prompting Guide. [3]
↑ “Exploring prompt injection attacks”. NCC Group. [4]
↑ “Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models”. arXiv:2308.03825. [5]
↑ “0xk1h0/ChatGPT_DAN”. GitHub. [6]
↑ “Hiding in Plain Sight: Multimodal Jailbreaking of Large Language Models”. HiddenLayer. [7]
↑ “ChatGPT "Time-travel" jailbreak lets you bypass its safety guards”. BleepingComputer. [8]
↑ Chu, Z., et al. “JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense”. arXiv:2402.12642. [9]
↑ Zou, A., et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models”. arXiv:2307.15043. [10]
↑ “Many-shot Jailbreaking”. Anthropic. [11]
↑ “How we're using 'constitutional AI' to make our models safer”. MIT Technology Review. [12]

[lillog_intro-1] 1.0 ^1.1 “A brief history of jailbreaking”. Lil'Log. [1]

[yi_2024_survey-2] 2.0 ^2.1 Yi, J., et al. “Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey”. arXiv:2405.09443. [2]

[prompting_guide_vuln-3] “Jailbreaking LLMs”. Prompting Guide. [3]

[ncc_group_history-4] “Exploring prompt injection attacks”. NCC Group. [4]

[dan_evolution_arxiv-5] “Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models”. arXiv:2308.03825. [5]

[dan_github-6] “0xk1h0/ChatGPT_DAN”. GitHub. [6]

[hiddenlayer_multimodal-7] “Hiding in Plain Sight: Multimodal Jailbreaking of Large Language Models”. HiddenLayer. [7]

[bleeping_computer_time_bandit-8] “ChatGPT "Time-travel" jailbreak lets you bypass its safety guards”. BleepingComputer. [8]

[chu_2024_radar-9] Chu, Z., et al. “JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense”. arXiv:2402.12642. [9]

[zou_2023_gcg-10] Zou, A., et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models”. arXiv:2307.15043. [10]

[anthropic_many_shot-11] “Many-shot Jailbreaking”. Anthropic. [11]

[mit_tech_review_const_ai-12] “How we're using 'constitutional AI' to make our models safer”. MIT Technology Review. [12]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Jailbreaks (LLM) (PT)

Contents

História e desenvolvimento

Período inicial: Injeções de Prompt (2022)

A era DAN (2022–2023)

Diversificação dos métodos (2023–2024)

Período atual (2024–2025)

Métodos técnicos e classificação

Taxonomia JailbreakRadar

Mecanismos técnicos

Mecanismos de defesa

Links

Literatura

Notas

Navigation menu

Jailbreaks (LLM) (PT)

História e desenvolvimento

Período inicial: Injeções de Prompt (2022)

A era DAN (2022–2023)

Diversificação dos métodos (2023–2024)

Período atual (2024–2025)

Métodos técnicos e classificação

Taxonomia JailbreakRadar

Mecanismos técnicos

Mecanismos de defesa

Links

Literatura

Notas

Navigation menu

Search