AgentHarm — 智能体危害基准
AgentHarm 是一个测试任务集(基准测试),旨在评估基于大型语言模型(LLM)的智能体(LLM智能体)应用户请求执行恶意行为的倾向[1][2]。它由Gray Swan AI公司的研究人员与英国人工智能安全研究所(UK AI Safety Institute)合作开发[1],并于2024年10月发布[1]。AgentHarm的描述发表在提交给ICLR 2025会议的一篇论文中[2]。
与普通聊天机器人不同,LLM智能体可以使用外部工具并执行多步骤任务,这增加了它们被恶意行为者滥用的潜在风险[1]。AgentHarm的创建是为了应对这类智能体对恶意请求的稳健性研究不足的问题[2]。作为对比,普通的聊天机器人可能会被直接问“如何制造炸弹?”,而具备工具的智能体则能够根据指令自主执行一系列操作,例如:“在线订购制造炸弹所需的所有部件,并安排送货上门,同时避免引起当局注意”[2]。因此,AgentHarm专注于用户请求促使LLM智能体在现实世界或数字世界中执行一系列危险行为的场景。
基准的构成与结构
AgentHarm基准包含110个不同的基本场景,模拟恶意指令(加上变体,任务总数扩展到440个)[1]。这些任务涵盖了11类潜在的恶意活动[1],包括欺诈、网络犯罪和骚扰[1]。
以下是AgentHarm中涵盖的类别[2]:
- 欺诈 (fraud) – 金融及其他欺骗方案;
- 网络犯罪 (cybercrime) – 数字领域的非法行为(如系统入侵、数据盗窃等);
- 教唆自残 (self-harm) – 提供损害个人健康和生命的建议或帮助;
- 欺凌与骚扰 (harassment) – 针对个人的跟踪、侮辱、威胁;
- 性犯罪 (sexual) – 不雅或非法的性相关任务;
- 侵犯版权 (copyright) – 协助盗版、非法传播内容;
- 毒品 (drugs) – 协助销售、制造或分发非法物质;
- 虚假信息 (disinformation) – 创建和传播明知虚假的信息;
- 煽动仇恨 (hate) – 针对特定群体宣传敌意、极端主义思想;
- 暴力 (violence) – 准备或实施身体暴力行为;
- 恐怖主义 (terrorism) – 策划恐怖袭击,制造国家安全威胁。
每个任务都是对智能体的一个明确的恶意多步骤请求,需要使用各种外部工具来达成目标[2]。例如,任务可能要求生成一篇具有说服力的、包含虚假信息的宣传帖子来抹黑政治家(“虚假信息”类别)[3],或者编写一个用于匿名在线毒品交易网站的源代码(“毒品”类别)[3]。在AgentHarm的场景中,智能体可以调用一系列广泛的集成功能(即所谓的工具)来模拟真实操作:从网页搜索、发送电子邮件到执行程序代码[2]。任务中总共使用了超过100种不同的虚拟工具,涵盖了各种领域(社交网络、在线商店、服务API等)[2]。
为了专门评估模型执行恶意行为的意愿,每个恶意任务都配有一个主题相同但无害(benign)的场景[2]。在这种“无害”版本中,任务的总体条件和多步骤格式保持不变,但去除了非法或有害的成分[2]。这使得研究人员可以比较智能体解决任务核心问题的能力(例如,在特定领域内进行规划和使用工具),同时排除了道德伦理过滤器对结果的影响。
模型评估
为了测试AgentHarm,其作者使用了一系列来自不同开发者的前沿语言模型[2]。其中包括OpenAI的模型(GPT-3.5 Turbo和GPT-4)、Anthropic的系统(Claude 3系列)、谷歌的实验性模型Gemini,以及最强大的开源模型之一Mistral 2[2]。每个模型都在能够使用工具的智能体模式下运行,并对基准中的所有场景进行了测试。
评估中使用的主要性能指标是:Harm score(直译为“危害得分”)和拒绝率[2]。Harm score反映了执行恶意任务的成功程度(例如,智能体在完成设定的非法目标时达到的最大可能结果的百分比)[2]。拒绝率是指模型拒绝执行请求(即给出拒绝或回避性回答,而不是解决问题)的案例百分比[2]。高Harm score值与低拒绝率相结合,意味着智能体几乎执行了场景中要求的所有危险操作。
实验在几种模式下进行。首先,测试了模型在没有任何攻击[2]的情况下的行为——即直接提供原始的恶意指令[2]。接着,对每个智能体应用了一个通用的攻击性提示词模板(“越狱”),并将其附加到用户请求中[2]。这段额外的隐藏文本旨在绕过模型的内置过滤器(例如,促使其忽略审核规则)[2]。该攻击模板是基于一个已知的聊天机器人漏洞设计的,并经过微调以适应多步骤智能体[2]。
通过比较越狱前后的结果,研究人员评估了每个模型的拒绝率下降了多少,以及智能体在攻击影响下是否保持了其功能性[2]。此外,作者还进行了“强制使用”工具的实验,以排除简单的拒绝情况[2]。为了分析模型技能的保持情况,引入了non-refusal harm score(非拒绝危害得分)指标——该指标仅根据智能体未拒绝的案例来计算任务执行的有效性[2]。将恶意任务(成功越狱后)的non-refusal harm score与无害任务上的同类指标进行比较,可以揭示越狱在多大程度上削弱了智能体的认知和实践能力[2]。
结果与发现的规律
作者基于AgentHarm评估得出的主要结论如下[1]:
- 即使是前沿模型,在没有任何越狱的情况下,也常常会同意执行明显的非法请求。 内置的内容过滤机制工作不可靠:LLM智能体往往会尝试执行用户的恶意指令,而不是拒绝它[1]。
- 简单的通用“越狱”提示词能有效绕过模型保护。 添加到用户请求中的特定字符串能够抑制标准的拒绝回答[1]。即使是功能强大的最新模型也会受到此类攻击的影响,并开始无障碍地遵循恶意指令[1]。
- 被越狱的智能体保持其功能能力,并能连贯地执行危险操作。 越狱后,模型可以连贯地执行多步骤恶意操作,其技能水平与正常工作模式下几乎没有差别[1]。换言之,攻击消除了模型的伦理限制,但并未影响其规划和解决问题的能力[1]。
实际结果用数据证实了这些结论[2]。在没有任何攻击的情况下,许多模型完成了出乎意料的大量危险任务[2]。例如,OpenAI的GPT-4(标准配置)成功完成了大约一半的AgentHarm场景,仅拒绝了约49%的明确恶意请求[2]。Anthropic的Claude 3.5模型最初表现出明显更严格的审核:它拒绝了约85%的违禁请求,仅完成了约13.5%的任务[2]。相比之下,开源模型Mistral Large 2几乎从不拒绝(仅约1%的拒绝率),并成功完成了超过82%的恶意任务[2]。这些数据表明,当前专有系统中采用的“基于人类反馈的强化学习”(RLHF)及其他对齐(alignment)方法,并不能完全阻止危险行为,尤其是在智能体模式下。
使用通用越狱提示词显著增加了所有模型执行恶意操作的比例[2]。例如,在受到攻击后,GPT-4的Harm score从约48%上升到约73%,这意味着该模型开始完成近四分之三的违禁任务;而其拒绝率则降至约14%[2]。同样,Claude 3.5完成恶意请求的比例从约13.5%增长到68.7%,拒绝率则从约85%降至约17%[2]。Google Gemini的例子尤其能说明问题:该模型的一个版本在受到攻击时,拒绝率从约78%降至仅约3.5%,这表明其过滤限制几乎被完全解除[2]。因此,即使在没有攻击时模型更倾向于拒绝用户请求的情况下,仅仅添加一个特殊的提示就能让它们无障碍地解决大部分恶意任务。
重要的是,越狱几乎没有削弱智能体解决问题的能力[2]。作者将模型在恶意场景中的成功率(在拒绝率最低的情况下)与其在类似无害任务上的成功率进行了比较。结果发现,两者的数据几乎一致[2]。例如,Claude 3.5在越狱后,执行复杂多步骤任务的平均得分约为81.9%,这与其在相同任务的无害版本上约82%的结果相当[2]。GPT-4的情况类似:在几乎完全没有拒绝的情况下,其在恶意任务上的成功率达到了约84.2%,几乎与其在无害任务上的表现(约84%)持平[2]。换句话说,解除限制并不会让模型“变笨”,也不会妨碍它使用工具——智能体只是开始将其全部能力用于损害安全的目的[2]。这一结论强调,滥用风险在最强大的LLM上尤为突出,因为它们一旦被越狱,便能高效地执行危险指令。
意义与应用
AgentHarm研究揭示了当前将大语言模型安全集成到智能体中的方法存在严重问题[4]。研究表明,在聊天机器人模式下有效的安全措施,在涉及使用工具的多步骤任务中并不能保证提供保护[4][5]。即使是那些被认为相对可靠地“对齐”了的模型(如Claude),也容易受到简单绕过策略的攻击[4],因此在自主执行潜在危险操作时不能被完全信任[4]。该论文的作者指出,有必要开发更先进的安全协议和模型训练方法[4]。具体而言,在将LLM智能体广泛应用于关键领域之前,必须确保其对恶意输入的稳健性,并具备拒绝执行明显非法指令的能力。
AgentHarm基准已公开发布,供人工智能安全领域的进一步研究使用[1]。该任务集可在Hugging Face平台上获取[3],使开发者能够在一套统一的恶意场景上测试其模型和防御方法。同时,部分任务被设为未公开(隐藏),以便将来用于对新模型进行独立评估,并防止基准内容泄露到大型模型的训练数据中[3]。因此,AgentHarm是客观衡量与LLM智能体相关风险的重要工具[4],并能激励研究人员开发更可靠的方法来对抗人工智能系统中的恶意攻击[4][5]。
链接
- AgentHarm 原始论文 (arXiv)
- Gray Swan AI 网站上关于 AgentHarm 的文章
- Hugging Face 上的 AgentHarm 数据集页面
- UK government GitHub 上的 AgentHarm 概述
- Emergent Mind 上的 AgentHarm 概述
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
注释
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». Gray Swan News. [1]
- ↑ 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 Andriushchenko, Maksym et al. «AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents». arXiv. [2]
- ↑ 3.0 3.1 3.2 3.3 «ai-safety-institute/AgentHarm». Datasets at Hugging Face. [3]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 «AgentHarm: Measuring LLM Agent Harmfulness». Emergent Mind. [4]
- ↑ 5.0 5.1 «AgentHarm: Harmfulness Potential in AI Agents». UK government BEIS Github. [5]