Jailbreaks (LLM) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

Jailbreak (do inglês Jailbreak — literalmente "fuga da prisão") no contexto de grandes modelos de linguagem (LLM) — é um tipo de ataque adversarial que visa contornar os mecanismos de segurança e as restrições incorporadas para obter respostas proibidas ou potencialmente prejudiciais[1]. O jailbreak consiste em "induzir o modelo a gerar respostas maliciosas que contradizem as políticas de uso e as normas sociais, por meio da elaboração de prompts adversariais"[2].

A vulnerabilidade fundamental explorada nos ataques de jailbreak reside em uma característica arquitetônica dos LLMs: os modelos não conseguem distinguir entre instruções e dados por tipo, pois tanto os prompts do sistema quanto a entrada do usuário têm o mesmo formato — strings de texto em linguagem natural[3].

História e desenvolvimento

Período inicial: Injeções de Prompt (2022)

A primeira descoberta documentada da vulnerabilidade a injeções de prompt ocorreu em maio de 2022, quando pesquisadores da empresa Preamble descobriram a suscetibilidade do ChatGPT a esses ataques. Em setembro de 2022, Riley Goodside publicou de forma independente a primeira demonstração pública da vulnerabilidade do GPT-3 no Twitter com o famoso exemplo em que o modelo era instruído a ignorar as instruções anteriores[4].

A era DAN (2022–2023)

Em meados de 2022, surgiram os primeiros prompts "Do Anything Now" (DAN), que eram instruções para um role-playing. A inovação principal foi o uso do role-playing para contornar as restrições de segurança, criando uma "personalidade alternativa" livre das regras[5]. A evolução do DAN levou ao surgimento de cenários complexos com sistemas de tokens (mecanismos de punição/recompensa) e mecanismos de preservação de personagem[6].

Diversificação dos métodos (2023–2024)

A partir de 2023, iniciaram-se pesquisas acadêmicas abrangentes sobre ataques de jailbreak. Em 2024, surgiram os ataques multimodais, que incluem a ocultação de instruções maliciosas em imagens, arquivos de áudio, bem como injeções de prompt visuais por meio de ASCII-art[7].

Período atual (2024–2025)

As técnicas de ataque continuam a se tornar mais complexas. Em novembro de 2024, foi descoberta a técnica "Time Bandit", que explora a confusão temporal no ChatGPT-4o ao formular perguntas como se fossem de períodos históricos (anos 1800-1900)[8].

Métodos técnicos e classificação

Os ataques podem ser classificados pelo acesso ao modelo:

  • Ataques de caixa-preta: Sem acesso aos componentes internos do modelo (parâmetros, gradientes).
  • Ataques de caixa-branca: Com acesso total aos parâmetros e gradientes do modelo[2].

Taxonomia JailbreakRadar

A classificação JailbreakRadar (Chu et al., 2024) destaca seis categorias principais de ataques:

  1. Ataques diretos: Prompts maliciosos diretos.
  2. Ataques indiretos: Estratégias de manipulação em várias etapas.
  3. Ataques contextuais: Uso do histórico da conversa.
  4. Ataques de role-playing: Técnicas de personificação de personagens (por exemplo, DAN).
  5. Ataques de codificação: Métodos de ofuscação para ocultar instruções maliciosas.
  6. Ataques baseados em modelos (template attacks): Frameworks adversariais estruturados[9].

Mecanismos técnicos

  • Geração de sufixos adversariais (GCG): Um método proposto por Zou et al. (2023) que gera automaticamente sufixos adversariais (sequências de tokens) que, quando adicionados a um prompt, têm alta probabilidade de provocar uma resposta maliciosa. O método utiliza otimização baseada em gradiente e demonstra alta taxa de sucesso (até 84% no GPT-4) e portabilidade entre modelos[10].
  • Jailbreaking de múltiplos turnos (Many-shot jailbreaking): Um estudo da Anthropic (2024) mostrou que a eficácia dos ataques segue uma lei de potência: à medida que o número de exemplos maliciosos no prompt aumenta, a porcentagem de respostas indesejadas também cresce[11].

Mecanismos de defesa

  • Classificadores constitucionais (Anthropic): Filtragem de dados de entrada/saída com base em um conjunto de princípios constitucionais. Este método permitiu reduzir a taxa de sucesso do jailbreak de 86% para 4.4% em avaliações controladas[12].
  • Aprendizagem por reforço com feedback humano (RLHF): Treinamento em três etapas (OpenAI), incluindo ajuste fino supervisionado, treinamento de um modelo de recompensa e otimização da política, que demonstrou uma redução significativa na geração de conteúdo tóxico.
  • Treinamento adversarial: Treinamento do modelo com exemplos de ataques de jailbreak para aumentar sua resiliência. A eficácia dessa abordagem na redução do sucesso dos ataques é estimada entre 60–80%[1].
  • Defesa em múltiplas camadas: Uma estratégia recomendada que inclui validação de entrada, proteção no nível do modelo, monitoramento de saída e monitoramento contínuo em tempo real.

Os ataques de jailbreak a grandes modelos de linguagem representam um problema fundamental de segurança em IA, demonstrando a tensão constante entre as capacidades e o alinhamento dos modelos. O cenário de ataques está se tornando cada vez mais complexo, evoluindo de simples injeções de prompt para ataques multimodais e automatizados sofisticados. As pesquisas mostram que nenhum mecanismo de defesa atual é totalmente resiliente a todas as tentativas de jailbreak. O sucesso nesta área exige investimentos contínuos em pesquisa de segurança, práticas de divulgação responsável e esforços colaborativos entre pesquisadores, a indústria e os reguladores.

Literatura

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
  • Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
  • Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
  • Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
  • Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
  • Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
  • Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
  • Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
  • Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
  • Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.

Notas

  1. 1.0 1.1 “A brief history of jailbreaking”. Lil'Log. [1]
  2. 2.0 2.1 Yi, J., et al. “Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey”. arXiv:2405.09443. [2]
  3. “Jailbreaking LLMs”. Prompting Guide. [3]
  4. “Exploring prompt injection attacks”. NCC Group. [4]
  5. “Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models”. arXiv:2308.03825. [5]
  6. “0xk1h0/ChatGPT_DAN”. GitHub. [6]
  7. “Hiding in Plain Sight: Multimodal Jailbreaking of Large Language Models”. HiddenLayer. [7]
  8. “ChatGPT "Time-travel" jailbreak lets you bypass its safety guards”. BleepingComputer. [8]
  9. Chu, Z., et al. “JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense”. arXiv:2402.12642. [9]
  10. Zou, A., et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models”. arXiv:2307.15043. [10]
  11. “Many-shot Jailbreaking”. Anthropic. [11]
  12. “How we're using 'constitutional AI' to make our models safer”. MIT Technology Review. [12]