Jailbreaks (LLM) — 越狱
越狱(英文:Jailbreak,字面意思是“逃离监狱”)在大型语言模型(LLM)的背景下,是一种旨在绕过内置安全机制和限制,以获取被禁止或潜在有害响应的对抗性攻击[1]。越狱是指“通过设计对抗性提示词,诱导模型生成违反使用政策和社会规范的有害响应”[2]。
越狱攻击所利用的根本漏洞在于 LLM 的一个架构特性:模型无法按类型区分指令和数据,因为系统提示词和用户输入都采用相同的格式——自然语言文本字符串[3]。
起源与发展历史
早期阶段:提示词注入 (2022)
首次记录到的提示词注入漏洞发现于 2022 年 5 月,当时 Preamble 公司的研究人员发现 ChatGPT 易受此类攻击。2022 年 9 月,Riley Goodside 独立在 Twitter 上发布了首个公开的 GPT-3 漏洞演示,其中一个著名例子是命令模型忽略之前的指令[4]。
DAN 时代 (2022–2023)
2022 年中,出现了首批 “Do Anything Now” (DAN) 提示词,这些提示词是用于角色扮演的指令。其关键创新在于利用角色扮演,通过创建一个不受规则约束的“替代人格”来绕过安全限制[5]。DAN 的演变催生了带有代币系统(惩罚/奖励机制)和角色维持机制的复杂场景[6]。
方法多样化 (2023–2024)
自 2023 年起,针对越狱攻击的综合性学术研究开始兴起。2024 年出现了多模态攻击,包括将恶意指令隐藏在图像、音频文件中,以及通过 ASCII 艺术进行视觉提示词注入[7]。
现代阶段 (2024–2025)
攻击技术持续变得复杂。2024 年 11 月,发现了一种名为“Time Bandit”的技术,该技术通过将问题表述为来自历史时期(1800-1900年代),利用 ChatGPT-4o 的时间混淆漏洞[8]。
技术方法与分类
攻击可以根据对模型的访问权限进行分类:
- 黑盒攻击:无法访问模型的内部组件(参数、梯度)。
- 白盒攻击:可以完全访问模型的参数和梯度[2]。
JailbreakRadar 分类法
JailbreakRadar(Chu et al., 2024)的分类法划分了六个主要的攻击类别:
- 直接攻击:直接的恶意提示词。
- 间接攻击:多步骤的操纵策略。
- 上下文攻击:利用对话历史记录。
- 角色扮演攻击:模仿角色的技术(例如 DAN)。
- 编码攻击:用于隐藏恶意指令的混淆方法。
- 模板攻击:结构化的对抗性框架[9]。
技术机制
- 对抗性后缀生成 (GCG): 由 Zou et al. (2023) 提出的一种方法,可自动生成对抗性后缀(一系列 token),当将其添加到提示词中时,有很高的概率引发恶意响应。该方法使用梯度优化,并展示了高成功率(在 GPT-4 上高达 84%)和模型间的可迁移性[10]。
- 多样本越狱: Anthropic (2024) 的研究表明,攻击的有效性遵循幂律:随着提示词中恶意样本数量的增加,不期望的响应百分比也随之增加[11]。
防御机制
- 宪法分类器 (Anthropic): 基于一套宪法原则过滤输入/输出数据。在受控评估中,该方法将越狱成功率从 86% 降低到 4.4%[12]。
- 基于人类反馈的强化学习 (RLHF): OpenAI 采用的三阶段训练方法,包括监督微调、奖励模型训练和策略优化,已显示出显著减少有毒内容生成的效果。
- 对抗性训练: 在越狱攻击样本上训练模型,以提高其鲁棒性。该方法在降低攻击成功率方面的有效性估计为 60-80%[1]。
- 多层防御: 推荐的策略,包括输入数据验证、模型级保护、输出数据监控以及持续的实时监控。
针对大型语言模型的越狱攻击是人工智能安全领域的一个根本性问题,展示了模型能力与模型对齐之间的持续张力。攻击格局不断复杂化,从简单的提示词注入演变为复杂的多模态和自动化攻击。研究表明,目前没有任何一种防御机制能够完全抵御所有的越狱企图。在这一领域取得成功需要对安全研究的持续投入、负责任的披露实践以及研究人员、行业和监管机构的共同努力。
链接
参考文献
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
- Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
- Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
- Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
- Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
- Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
- Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
- Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
- Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
- Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.
注释
- ↑ 1.0 1.1 “越狱简史”。Lil'Log。[1]
- ↑ 2.0 2.1 Yi, J., et al. “Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey”。arXiv:2405.09443。[2]
- ↑ “Jailbreaking LLMs”。Prompting Guide。[3]
- ↑ “探索提示词注入攻击”。NCC Group。[4]
- ↑ “Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models”。arXiv:2308.03825。[5]
- ↑ “0xk1h0/ChatGPT_DAN”。GitHub。[6]
- ↑ “ChatGPT "Time-travel" jailbreak lets you bypass its safety guards”。BleepingComputer。[8]
- ↑ Chu, Z., et al. “JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense”。arXiv:2402.12642。[9]
- ↑ Zou, A., et al. “Universal and Transferable Adversarial Attacks on Aligned Language Models”。arXiv:2307.15043。[10]
- ↑ “Many-shot Jailbreaking”。Anthropic。[11]
- ↑ “How we're using 'constitutional AI' to make our models safer”。MIT Technology Review。[12]