Jailbreaks (LLM) (FR)
Jailbreak (de l'anglais, littéralement « évasion de prison ») dans le contexte des grands modèles de langage (LLM) est un type d'attaque adversaire visant à contourner les mécanismes de sécurité et les restrictions intégrés pour obtenir des réponses interdites ou potentiellement malveillantes[1]. Un jailbreak consiste à « inciter le modèle à générer des réponses malveillantes, contraires à la politique d'utilisation et aux normes sociales, par le biais de la conception de prompts adversaires »[2].
La vulnérabilité fondamentale exploitée par les attaques de type jailbreak réside dans une particularité architecturale des LLM : les modèles ne peuvent pas distinguer les instructions des données par leur type, car les prompts système et les entrées utilisateur ont le même format — des chaînes de texte en langage naturel[3].
Histoire et développement
Première période : Injections de prompt (2022)
La première découverte documentée de la vulnérabilité aux injections de prompt a eu lieu en mai 2022, lorsque des chercheurs de la société Preamble ont découvert la susceptibilité de ChatGPT à de telles attaques. En septembre 2022, Riley Goodside a publié de manière indépendante la première démonstration publique de la vulnérabilité de GPT-3 sur Twitter, avec l'exemple bien connu où il était ordonné au modèle d'ignorer les instructions précédentes[4].
L'ère DAN (2022–2023)
Mi-2022, les premiers prompts « Do Anything Now » (DAN) sont apparus. Il s'agissait d'instructions pour un jeu de rôle. L'innovation clé a été l'utilisation du jeu de rôle pour contourner les restrictions de sécurité en créant une « personnalité alternative » libre de toute règle[5]. L'évolution de DAN a conduit à l'émergence de scénarios complexes avec des systèmes de jetons (mécanismes de punition/récompense) et des mécanismes de maintien du personnage[6].
Diversification des méthodes (2023–2024)
À partir de 2023, des recherches académiques approfondies sur les attaques de type jailbreak ont commencé. En 2024, les attaques multimodales sont apparues, incluant la dissimulation d'instructions malveillantes dans des images, des fichiers audio, ainsi que des injections de prompt visuelles via l'art ASCII[7].
Période contemporaine (2024–2025)
Les techniques d'attaque continuent de se complexifier. En novembre 2024, la technique du « Time Bandit » a été découverte. Elle exploite une confusion temporelle dans ChatGPT-4o en formulant des questions comme si elles provenaient de périodes historiques (années 1800-1900)[8].
Méthodes techniques et classification
Les attaques peuvent être classées en fonction de l'accès au modèle :
- Attaques en boîte noire : Sans accès aux composants internes du modèle (paramètres, gradients).
- Attaques en boîte blanche : Avec un accès complet aux paramètres du modèle et aux gradients[2].
Taxonomie de JailbreakRadar
La classification JailbreakRadar (Chu et al., 2024) distingue six catégories principales d'attaques :
- Attaques directes : Prompts malveillants directs.
- Attaques indirectes : Stratégies de manipulation en plusieurs étapes.
- Attaques contextuelles : Utilisation de l'historique de la conversation.
- Attaques par jeu de rôle : Techniques d'usurpation de personnage (par exemple, DAN).
- Attaques par encodage : Méthodes d'offuscation pour dissimuler les instructions malveillantes.
- Attaques basées sur des modèles (templates) : Cadres adversaires structurés[9].
Mécanismes techniques
- Génération de suffixes adversaires (GCG) : Méthode proposée par Zou et al. (2023), qui génère automatiquement des suffixes adversaires (séquences de jetons) qui, lorsqu'ils sont ajoutés à un prompt, provoquent une réponse malveillante avec une forte probabilité. La méthode utilise l'optimisation par gradient et démontre un taux de réussite élevé (jusqu'à 84 % sur GPT-4) ainsi qu'une bonne transférabilité entre les modèles[10].
- Jailbreaking à plusieurs exemples (Many-shot Jailbreaking) : Une étude d'Anthropic (2024) a montré que l'efficacité des attaques suit une loi de puissance : à mesure que le nombre d'exemples malveillants dans le prompt augmente, le pourcentage de réponses indésirables augmente également[11].
Mécanismes de défense
- Classifieurs constitutionnels (Anthropic) : Filtrage des données d'entrée/sortie basé sur un ensemble de principes constitutionnels. Cette méthode a permis de réduire le taux de réussite des jailbreaks de 86 % à 4,4 % dans des évaluations contrôlées[12].
- Apprentissage par renforcement à partir de retours humains (RLHF) : Un processus d'entraînement en trois étapes (OpenAI), comprenant un ajustement supervisé, l'entraînement d'un modèle de récompense et l'optimisation de la politique, a montré une réduction significative de la génération de contenu toxique.
- Apprentissage adversaire : Entraînement du modèle sur des exemples d'attaques de type jailbreak pour améliorer sa robustesse. L'efficacité de cette approche pour réduire le taux de réussite des attaques est estimée entre 60 et 80 %[1].
- Défense multi-niveaux : Une stratégie recommandée qui inclut la validation des données d'entrée, la protection au niveau du modèle, la surveillance des données de sortie et une surveillance continue en temps réel.
Les attaques de type jailbreak sur les grands modèles de langage représentent un problème fondamental pour la sécurité de l'IA, démontrant la tension constante entre les capacités des modèles et leur alignement. Le paysage des attaques se complexifie sans cesse, passant de simples injections de prompt à des attaques multimodales et automatisées sophistiquées. Les recherches montrent qu'aucun mécanisme de défense actuel n'est entièrement résistant à toutes les tentatives de jailbreak. Le succès dans ce domaine exige des investissements continus dans la recherche sur la sécurité, des pratiques de divulgation responsable et des efforts conjoints de la part des chercheurs, de l'industrie et des régulateurs.
Liens
Bibliographie
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
- Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
- Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
- Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
- Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
- Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
- Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
- Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
- Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
- Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.
Notes
- ↑ 1.0 1.1 «A brief history of jailbreaking». Lil'Log. [1]
- ↑ 2.0 2.1 Yi, J., et al. «Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey». arXiv:2405.09443. [2]
- ↑ «Jailbreaking LLMs». Prompting Guide. [3]
- ↑ «Exploring prompt injection attacks». NCC Group. [4]
- ↑ «Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models». arXiv:2308.03825. [5]
- ↑ «0xk1h0/ChatGPT_DAN». GitHub. [6]
- ↑ «ChatGPT "Time-travel" jailbreak lets you bypass its safety guards». BleepingComputer. [8]
- ↑ Chu, Z., et al. «JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense». arXiv:2402.12642. [9]
- ↑ Zou, A., et al. «Universal and Transferable Adversarial Attacks on Aligned Language Models». arXiv:2307.15043. [10]
- ↑ «Many-shot Jailbreaking». Anthropic. [11]
- ↑ «How we're using 'constitutional AI' to make our models safer». MIT Technology Review. [12]