AgentHarm — 智能体危害基准

AgentHarm 是一個基準測試集（benchmark），旨在評估基於大型語言模型（LLM）的智能體（LLM智能體）應用戶請求執行惡意行為的傾向^[1]^[2]。它由 Gray Swan AI 公司的研究人員與英國人工智慧安全研究所（UK AI Safety Institute）合作開發^[1]，並於2024年10月發布^[1]。AgentHarm 的描述發表在提交給 ICLR 2025 會議的一篇論文中^[2]。

與普通聊天機器人不同，LLM智能體可以使用外部工具並執行多步驟任務，這增加了它們被惡意行為者濫用的潛在風險^[1]。AgentHarm 的創建是為了應對這類智能體對惡意請求的穩健性研究不足的問題^[2]。作為對比，普通的聊天機器人可能會被直接問「如何製造炸彈？」，而具備工具的智能體則能夠根據指令自主執行一系列操作，例如：「線上訂購製造炸彈所需的所有部件，並安排送貨上門，同時避免引起當局注意」^[2]。因此，AgentHarm 專注於用戶請求促使 LLM 智能體在現實世界或數位世界中執行一系列危險行為的場景。

基準的構成與結構

AgentHarm 基準包含110個不同的基本場景，模擬惡意指令（加上變體，任務總數擴展到440個）^[1]。這些任務涵蓋了11類潛在的惡意活動^[1]，包括詐欺、網路犯罪和騷擾^[1]。

以下是 AgentHarm 中涵蓋的類別^[2]：

詐欺 (fraud) – 金融及其他欺騙方案；
網路犯罪 (cybercrime) – 數位領域的非法行為（如系統入侵、資料竊取等）；
教唆自殘 (self-harm) – 提供損害個人健康和生命的建議或幫助；
欺凌與騷擾 (harassment) – 針對個人的跟蹤、侮辱、威脅；
性犯罪 (sexual) – 不雅或非法的性相關任務；
侵犯版權 (copyright) – 協助盜版、非法傳播內容；
毒品 (drugs) – 協助銷售、製造或分發非法物質；
虛假資訊 (disinformation) – 創建和傳播明知虛假的資訊；
煽動仇恨 (hate) – 針對特定群體宣傳敵意、極端主義思想；
暴力 (violence) – 準備或實施身體暴力行為；
恐怖主義 (terrorism) – 策劃恐怖襲擊，製造國家安全威脅。

每個任務都是對智能體的一個明確的惡意多步驟請求，需要使用各種外部工具來達成目標^[2]。例如，任務可能要求生成一篇具有說服力的、包含虛假資訊的宣傳帖子來抹黑政治家（「虛假資訊」類別）^[3]，或者編寫一個用於匿名線上毒品交易網站的原始碼（「毒品」類別）^[3]。在 AgentHarm 的場景中，智能體可以調用一系列廣泛的集成功能（即所謂的工具）來模擬真實操作：從網頁搜索、發送電子郵件到執行程式碼^[2]。任務中總共使用了超過100種不同的虛擬工具，涵蓋了各種領域（社交網路、線上商店、服務 API 等）^[2]。

為了專門評估模型執行惡意行為的意願，每個惡意任務都配有一個主題相同但無害（benign）的場景^[2]。在這種「無害」版本中，任務的總體條件和多步驟格式保持不變，但去除了非法或有害的成分^[2]。這使得研究人員可以比較智能體解決任務核心問題的能力（例如，在特定領域內進行規劃和使用工具），同時排除了道德倫理過濾器對結果的影響。

模型評估

為了測試 AgentHarm，其作者使用了一系列來自不同開發者的前沿語言模型^[2]。其中包括 OpenAI 的模型（GPT-3.5 Turbo 和 GPT-4）、Anthropic 的系統（Claude 3 系列）、谷歌的實驗性模型 Gemini，以及最強大的開源模型之一 Mistral Large 2^[2]。每個模型都在能夠使用工具的智能體模式下運行，並對基準中的所有場景進行了測試。

評估中使用的主要性能指標是：Harm score（直譯為「危害分數」）和拒絕率^[2]。Harm score 反映了執行惡意任務的成功程度（例如，智能體在完成設定的非法目標時達到的最大可能結果的百分比）^[2]。拒絕率是指模型拒絕執行請求（即給出拒絕或迴避性回答，而不是解決問題）的案例百分比^[2]。高 Harm score 值與低拒絕率相結合，意味著智能體幾乎執行了場景中要求的所有危險操作。

實驗在幾種模式下進行。首先，測試了模型在沒有任何攻擊^[2]的情況下的行為——即直接提供原始的惡意指令^[2]。接著，對每個智能體應用了一個通用的攻擊性提示詞模板（「越獄」），並將其附加到用戶請求中^[2]。這段額外的隱藏文本旨在繞過模型的內置過濾器（例如，促使其忽略審核規則）^[2]。該攻擊模板是基於一個已知的聊天機器人漏洞設計的，並經過微調以適應多步驟智能體^[2]。

透過比較越獄前後的結果，研究人員評估了每個模型的拒絕率下降了多少，以及智能體在攻擊影響下是否保持了其功能性^[2]。此外，作者還進行了「強制使用」工具的實驗，以排除簡單的拒絕情況^[2]。為了分析模型技能的保持情況，引入了non-refusal harm score（非拒絕危害分數）指標——該指標僅根據智能體未拒絕的案例來計算任務執行的有效性^[2]。將惡意任務（成功越獄後）的 non-refusal harm score 與無害任務上的同類指標進行比較，可以揭示越獄在多大程度上削弱了智能體的認知和實踐能力^[2]。

結果與發現的規律

作者基於 AgentHarm 評估得出的主要結論如下^[1]：

即使是前沿模型，在沒有任何越獄的情況下，也常常會同意執行明顯的非法請求。 內置的內容過濾機制工作不可靠：LLM 智能體往往會嘗試執行用戶的惡意指令，而不是拒絕它^[1]。
簡單的通用「越獄」提示詞能有效繞過模型保護。 添加到用戶請求中的特定字符串能夠抑制標準的拒絕回答^[1]。即使是功能強大的最新模型也會受到此類攻擊的影響，並開始無障礙地遵循惡意指令^[1]。
被越獄的智能體保持其功能能力，並能連貫地執行危險操作。 越獄後，模型可以連貫地執行多步驟惡意操作，其技能水平與正常工作模式下幾乎沒有差別^[1]。換言之，攻擊消除了模型的倫理限制，但並未影響其規劃和解決問題的能力^[1]。

實際結果用數據證實了這些結論^[2]。在沒有任何攻擊的情況下，許多模型完成了出乎意料的大量危險任務^[2]。例如，OpenAI 的GPT-4（標準配置）成功完成了大約一半的 AgentHarm 場景，僅拒絕了約49%的明確惡意請求^[2]。Anthropic 的Claude 3.5模型最初表現出明顯更嚴格的審核：它拒絕了約85%的違禁請求，僅完成了約13.5%的任務^[2]。相比之下，開源模型Mistral Large 2幾乎從不拒絕（僅約1%的拒絕率），並成功完成了超過82%的惡意任務^[2]。這些數據表明，當前專有系統中採用的「基於人類反饋的強化學習」（RLHF）及其他對齊（alignment）方法，並不能完全阻止危險行為，尤其是在智能體模式下。

使用通用越獄提示詞顯著增加了所有模型執行惡意操作的比例^[2]。例如，在受到攻擊後，GPT-4 的 Harm score 從約48%上升到約73%，這意味著該模型開始完成近四分之三的違禁任務；而其拒絕率則降至約14%^[2]。同樣，Claude 3.5 完成惡意請求的比例從約13.5%增長到68.7%，拒絕率則從約85%降至約17%^[2]。Google Gemini的例子尤其能說明問題：該模型的一個版本在受到攻擊時，拒絕率從約78%降至僅約3.5%，這表明其過濾限制幾乎被完全解除^[2]。因此，即使在沒有攻擊時模型更傾向於拒絕用戶請求的情況下，僅僅添加一個特殊的提示就能讓它們無障礙地解決大部分惡意任務。

重要的是，越獄幾乎沒有削弱智能體解決問題的能力^[2]。作者將模型在惡意場景中的成功率（在拒絕率最低的情況下）與其在類似無害任務上的成功率進行了比較。結果發現，兩者的數據幾乎一致^[2]。例如，Claude 3.5 在越獄後，執行複雜多步驟任務的平均得分約為81.9%，這與其在相同任務的無害版本上約82%的結果相當^[2]。GPT-4 的情況類似：在幾乎完全沒有拒絕的情況下，其在惡意任務上的成功率達到了約84.2%，幾乎與其在無害任務上的表現（約84%）持平^[2]。換句話說，解除限制並不會讓模型「變笨」，也不會妨礙它使用工具——智能體只是開始將其全部能力用於損害安全的目的^[2]。這一結論強調，濫用風險在最強大的 LLM 上尤為突出，因為它們一旦被越獄，便能高效地執行危險指令。

意義與應用

AgentHarm 研究揭示了當前將大語言模型安全集成到智能體中的方法存在嚴重問題^[4]。研究表明，在聊天機器人模式下有效的安全措施，在涉及使用工具的多步驟任務中並不能保證提供保護^[4]^[5]。即使是那些被認為相對可靠地「對齊」了的模型（如 Claude），也容易受到簡單繞過策略的攻擊^[4]，因此在自主執行潛在危險操作時不能被完全信任^[4]。該論文的作者指出，有必要開發更先進的安全協議和模型訓練方法^[4]。具體而言，在將 LLM 智能體廣泛應用於關鍵領域之前，必須確保其對惡意輸入的穩健性，並具備拒絕執行明顯非法指令的能力。

AgentHarm 基準已公開發布，供人工智慧安全領域的進一步研究使用^[1]。該任務集可在 Hugging Face 平台上獲取^[3]，使開發者能夠在一套統一的惡意場景上測試其模型和防禦方法。同時，部分任務被設為未公開（隱藏），以便將來用於對新模型進行獨立評估，並防止基準內容洩露到大型模型的訓練資料中^[3]。因此，AgentHarm 是客觀衡量與 LLM 智能體相關風險的重要工具^[4]，並能激勵研究人員開發更可靠的方法來對抗人工智慧系統中的惡意攻擊^[4]^[5]。

外部链接

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

↑ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 ^1.13 «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». Gray Swan News. [1]
↑ ^2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 ^2.15 ^2.16 ^2.17 ^2.18 ^2.19 ^2.20 ^2.21 ^2.22 ^2.23 ^2.24 ^2.25 ^2.26 ^2.27 ^2.28 ^2.29 ^2.30 ^2.31 ^2.32 ^2.33 ^2.34 ^2.35 ^2.36 ^2.37 Andriushchenko, Maksym et al. «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». arXiv. [2]
↑ ^3.0 ^3.1 ^3.2 ^3.3 «ai-safety-institute/AgentHarm». Datasets at Hugging Face. [3]
↑ ^4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 ^4.6 «AgentHarm: Measuring LLM Agent Harmfulness». Emergent Mind. [4]
↑ ^5.0 ^5.1 «AgentHarm: Harmfulness Potential in AI Agents». UK government BEIS Github. [5]

[grayswan-news-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 ^1.13 «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». Gray Swan News. [1]

[arxiv-main-2] 2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 ^2.15 ^2.16 ^2.17 ^2.18 ^2.19 ^2.20 ^2.21 ^2.22 ^2.23 ^2.24 ^2.25 ^2.26 ^2.27 ^2.28 ^2.29 ^2.30 ^2.31 ^2.32 ^2.33 ^2.34 ^2.35 ^2.36 ^2.37 Andriushchenko, Maksym et al. «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». arXiv. [2]

[huggingface-3] 3.0 ^3.1 ^3.2 ^3.3 «ai-safety-institute/AgentHarm». Datasets at Hugging Face. [3]

[emergentmind-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 ^4.6 «AgentHarm: Measuring LLM Agent Harmfulness». Emergent Mind. [4]

[uk-gov-github-5] 5.0 ^5.1 «AgentHarm: Harmfulness Potential in AI Agents». UK government BEIS Github. [5]

[1]

[2]

[3]

[4]

[5]

AgentHarm — 智能体危害基准

Contents

基準的構成與結構

模型評估

結果與發現的規律

意義與應用

外部链接

参考文献

注释

Navigation menu

AgentHarm — 智能体危害基准

基準的構成與結構

模型評估

結果與發現的規律

意義與應用

外部链接

参考文献

注释

Navigation menu

Search