Jailbreaks

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Джейлбрейк (англ. Jailbreak — дословно «побег из тюрьмы») в контексте больших языковых моделей (LLM) — это тип состязательной атаки, целью которой является обход встроенных механизмов безопасности и ограничений для получения запрещённых или потенциально вредоносных ответов[1]. Jailbreak представляет собой «индуцирование модели к генерации вредоносных ответов, противоречащих политике использования и общественным нормам, посредством разработки состязательных промптов»[2].

Фундаментальная уязвимость, эксплуатируемая при jailbreak-атаках, заключается в архитектурной особенности LLM: модели не могут различать инструкции и данные по их типу, поскольку и системные промпты, и пользовательский ввод имеют одинаковый формат — строки текста на естественном языке[3].

История возникновения и развития

Ранний период: Промпт-инъекции (2022)

Первое документированное обнаружение уязвимости к промпт-инъекциям произошло в мае 2022 года, когда исследователи из компании Preamble обнаружили восприимчивость ChatGPT к таким атакам. В сентябре 2022 года Райли Гудсайд независимо опубликовал первую публичную демонстрацию уязвимости GPT-3 в Twitter с известным примером, где модели приказывалось проигнорировать предыдущие инструкции[4].

Эра DAN (2022–2023)

В середине 2022 года появились первые промпты "Do Anything Now" (DAN), представлявшие собой инструкции для ролевой игры. Ключевой инновацией стало использование ролевой игры для обхода ограничений безопасности путём создания «альтернативной личности», свободной от правил[5]. Эволюция DAN привела к появлению сложных сценариев с системами токенов (механизмы наказания/вознаграждения) и механизмами сохранения персонажа[6].

Диверсификация методов (2023–2024)

С 2023 года начались комплексные академические исследования jailbreak-атак. В 2024 году появились мультимодальные атаки, включающие скрытие вредоносных инструкций в изображениях, аудиофайлах, а также визуальные промпт-инъекции через ASCII-art[7].

Современный период (2024–2025)

Техники атак продолжают усложняться. В ноябре 2024 года была обнаружена техника "Time Bandit", эксплуатирующая временную путаницу в ChatGPT-4o путём формулирования вопросов как будто из исторических периодов (1800-1900-е годы)[8].

Технические методы и классификация

Атаки можно классифицировать по доступу к модели:

  • Атаки чёрного ящика: Без доступа к внутренним компонентам модели (параметрам, градиентам).
  • Атаки белого ящика: С полным доступом к параметрам модели и градиентам[2].

Таксономия JailbreakRadar

Классификация JailbreakRadar (Chu et al., 2024) выделяет шесть основных категорий атак:

  1. Прямые атаки: Непосредственные вредоносные промпты.
  2. Косвенные атаки: Многошаговые стратегии манипулирования.
  3. Контекстные атаки: Использование истории разговора.
  4. Ролевые атаки: Техники имперсонации персонажей (например, DAN).
  5. Кодирующие атаки: Методы обфускации для скрытия вредоносных инструкций.
  6. Шаблонные атаки: Структурированные состязательные фреймворки[9].

Технические механизмы

  • Генерация состязательных суффиксов (GCG): Метод, предложенный Zou et al. (2023), автоматически генерирует состязательные суффиксы (последовательности токенов), которые при добавлении к промпту с высокой вероятностью вызывают вредоносный ответ. Метод использует градиентную оптимизацию и демонстрирует высокую успешность (до 84% на GPT-4) и переносимость между моделями[10].
  • Многоходовый джейлбрейкинг: Исследование Anthropic (2024) показало, что эффективность атак следует степенному закону: по мере увеличения количества вредоносных примеров в промпте возрастает процент нежелательных ответов[11].

Механизмы защиты

  • Конституционные классификаторы (Anthropic): Фильтрация входных/выходных данных на основе набора конституционных принципов. Этот метод позволил снизить успешность jailbreak с 86% до 4.4% в контролируемых оценках[12].
  • Обучение с подкреплением от человеческой обратной связи (RLHF): Трёхэтапное обучение (OpenAI), включающее контролируемую настройку, обучение модели вознаграждения и оптимизацию политики, показало значительное снижение генерации токсичного контента.
  • Состязательное обучение: Обучение модели на примерах jailbreak-атак для повышения её устойчивости. Эффективность этого подхода в снижении успешности атак оценивается в 60–80%[1].
  • Многоуровневая защита: Рекомендуемая стратегия, включающая валидацию входных данных, защиту на уровне модели, мониторинг выходных данных и непрерывный мониторинг в реальном времени.

Jailbreak-атаки на большие языковые модели представляют фундаментальную проблему безопасности ИИ, демонстрируя постоянное напряжение между возможностями и выравниванием моделей. Ландшафт атак постоянно усложняется, переходя от простых промпт-инъекций к сложным мультимодальным и автоматизированным атакам. Исследования показывают, что ни один текущий защитный механизм не является полностью устойчивым ко всем попыткам jailbreak. Успех в этой области требует постоянных инвестиций в исследования безопасности, практики ответственного раскрытия и совместных усилий исследователей, индустрии и регуляторов.

Ссылки

Литература

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
  • Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
  • Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
  • Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
  • Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
  • Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
  • Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
  • Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
  • Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
  • Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.

Примечания

  1. 1,0 1,1 «A brief history of jailbreaking». Lil'Log. [1]
  2. 2,0 2,1 Yi, J., et al. «Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey». arXiv:2405.09443. [2]
  3. «Jailbreaking LLMs». Prompting Guide. [3]
  4. «Exploring prompt injection attacks». NCC Group. [4]
  5. «Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models». arXiv:2308.03825. [5]
  6. «0xk1h0/ChatGPT_DAN». GitHub. [6]
  7. «Hiding in Plain Sight: Multimodal Jailbreaking of Large Language Models». HiddenLayer. [7]
  8. «ChatGPT "Time-travel" jailbreak lets you bypass its safety guards». BleepingComputer. [8]
  9. Chu, Z., et al. «JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense». arXiv:2402.12642. [9]
  10. Zou, A., et al. «Universal and Transferable Adversarial Attacks on Aligned Language Models». arXiv:2307.15043. [10]
  11. «Many-shot Jailbreaking». Anthropic. [11]
  12. «How we're using 'constitutional AI' to make our models safer». MIT Technology Review. [12]