Jailbreaks (LLM) — ジェイルブレイク

From Systems analysis wiki
Jump to navigation Jump to search

ジェイルブレイク(英語: Jailbreak、直訳は「脱獄」)は、大規模言語モデル(LLM)の文脈において、組み込まれたセキュリティメカニズムや制限を回避し、禁止されている、あるいは潜在的に有害な応答を得ることを目的とした敵対的攻撃の一種です[1]。ジェイルブレイクは、「敵対的なプロンプトを設計することによって、利用ポリシーや社会規範に反する有害な応答を生成するようにモデルを誘導すること」と定義されます[2]

ジェイルブレイク攻撃で悪用される根本的な脆弱性は、LLMのアーキテクチャ上の特徴にあります。つまり、システムプロンプトとユーザー入力の両方が自然言語のテキスト文字列という同じ形式であるため、モデルは指示とデータをその種類によって区別することができません[3]

歴史と発展

初期: プロンプトインジェクション (2022)

プロンプトインジェクションに対する脆弱性が初めて文書化されたのは2022年5月で、Preamble社の研究者がChatGPTがこのような攻撃に対して脆弱であることを発見しました。2022年9月には、ライリー・グッドサイドが独立して、GPT-3の脆弱性を初めて公に実演し、モデルに以前の指示を無視するように命令する有名な例をTwitterで公開しました[4]

DANの時代 (2022–2023)

2022年半ばに、ロールプレイングの指示である最初の「Do Anything Now」DAN)プロンプトが登場しました。重要な革新は、ルールに縛られない「別人格」を作り出すことでセキュリティ制限を回避するためにロールプレイングを利用した点です[5]。DANの進化は、トークンシステム(罰/報酬メカニズム)やキャラクター維持メカニズムを備えた複雑なシナリオの登場につながりました[6]

手法の多様化 (2023–2024)

2023年からは、ジェイルブレイク攻撃に関する包括的な学術研究が始まりました。2024年には、画像や音声ファイルに悪意のある指示を隠したり、ASCIIアートを介した視覚的なプロンプトインジェクションを含むマルチモーダル攻撃が登場しました[7]

現代 (2024–2025)

攻撃技術は複雑化し続けています。2024年11月には、歴史的な時代(1800年代~1900年代)からの質問であるかのように問題を定式化することで、ChatGPT-4oの時間的な混乱を悪用する「Time Bandit」技術が発見されました[8]

技術的な手法と分類

攻撃はモデルへのアクセス権によって分類できます:

  • ブラックボックス攻撃: モデルの内部コンポーネント(パラメータ、勾配)へのアクセスなしに行われる攻撃。
  • ホワイトボックス攻撃: モデルのパラメータと勾配への完全なアクセス権を持つ状態で行われる攻撃[2]

JailbreakRadarの分類

JailbreakRadarの分類(Chu et al., 2024)では、6つの主要な攻撃カテゴリが定義されています:

  1. 直接攻撃: 直接的な悪意のあるプロンプト。
  2. 間接攻撃: 多段階の操作戦略。
  3. 文脈攻撃: 会話履歴の利用。
  4. ロールプレイ攻撃: キャラクターになりすます手法(例: DAN)。
  5. エンコーディング攻撃: 悪意のある指示を隠すための難読化手法。
  6. テンプレート攻撃: 構造化された敵対的フレームワーク[9]

技術的メカニズム

  • 敵対的サフィックス生成(GCG): Zouら(2023)によって提案された手法で、プロンプトに追加すると高い確率で悪意のある応答を引き起こす敵対的サフィックス(トークンのシーケンス)を自動的に生成します。この手法は勾配最適化を利用し、高い成功率(GPT-4で最大84%)とモデル間での移植性を示しています[10]
  • メニーショット・ジェイルブレイキング: Anthropicの研究(2024)により、攻撃の有効性がべき乗則に従うことが示されました。プロンプト内の悪意のある例の数が増えるにつれて、望ましくない応答の割合が増加します[11]

防御メカニズム

  • 憲法AI(Anthropic): 一連の憲法原則に基づいて入出力をフィルタリングします。この手法により、管理された評価においてジェイルブレイクの成功率が86%から4.4%に低下しました[12]
  • 人間のフィードバックからの強化学習(RLHF): 3段階の学習(OpenAI)で、教師ありファインチューニング、報酬モデルの学習、およびポリシーの最適化を含み、有害コンテンツの生成を大幅に削減することが示されています。
  • 敵対的学習: モデルをジェイルブレイク攻撃の例で学習させ、その耐性を高めます。このアプローチの攻撃成功率を低下させる効果は60〜80%と評価されています[1]
  • 多層防御: 入力データの検証、モデルレベルの保護、出力データの監視、およびリアルタイムの継続的な監視を含む推奨戦略。

大規模言語モデルに対するジェイルブレイク攻撃は、AIの安全性における根本的な課題であり、モデルの能力とアライメントの間の絶え間ない緊張関係を示しています。攻撃の状況は常に複雑化しており、単純なプロンプトインジェクションから、複雑なマルチモーダル攻撃や自動化された攻撃へと移行しています。研究によれば、現在のどの防御メカニズムも、すべてのジェイルブレイクの試みに対して完全に耐性があるわけではありません。この分野での成功には、セキュリティ研究への継続的な投資、責任ある開示の実践、そして研究者、産業界、規制当局による共同の取り組みが不可欠です。

外部リンク

参考文献

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043.
  • Shen, X. et al. (2023). “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825.
  • Chao, P. et al. (2024). JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318.
  • Liao, Z.; Sun, H. (2024). AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs. OpenReview UfqzXg95I5.
  • Yi, S. et al. (2024). Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv:2407.04295.
  • Chu, J. et al. (2025). JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs. arXiv:2402.05668.
  • Liu, A. et al. (2025). PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization. arXiv:2504.01444.
  • Ghosal, D. et al. (2025). Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Filtering. CVPR 2025. PDF.
  • Yan, Q. et al. (2025). Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models. arXiv:2506.00258.
  • Liu, Y. et al. (2025). RePD: Defending Jailbreak Attack through a Retrieval-Based Detector. Findings of NAACL 2025. ACL Anthology.

脚注

  1. 1.0 1.1 「A brief history of jailbreaking」。Lil'Log[1]
  2. 2.0 2.1 Yi, J., et al. 「Jailbreak Attacks and Defenses Against Large Language Models: A Comprehensive Survey」。arXiv:2405.09443[2]
  3. 「Jailbreaking LLMs」。Prompting Guide[3]
  4. 「Exploring prompt injection attacks」。NCC Group[4]
  5. 「Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models」。arXiv:2308.03825[5]
  6. 「0xk1h0/ChatGPT_DAN」。GitHub[6]
  7. 「Hiding in Plain Sight: Multimodal Jailbreaking of Large Language Models」。HiddenLayer[7]
  8. 「ChatGPT "Time-travel" jailbreak lets you bypass its safety guards」。BleepingComputer[8]
  9. Chu, Z., et al. 「JailbreakRadar: A Comprehensive Benchmark for Jailbreak Attack and Defense」。arXiv:2402.12642[9]
  10. Zou, A., et al. 「Universal and Transferable Adversarial Attacks on Aligned Language Models」。arXiv:2307.15043[10]
  11. 「Many-shot Jailbreaking」。Anthropic[11]
  12. 「How we're using 'constitutional AI' to make our models safer」。MIT Technology Review[12]