SafetyBench — SafetyBench(安全评测基准)

From Systems analysis wiki
Jump to navigation Jump to search

SafetyBench 是首个用于全面评估大语言模型安全性综合基准测试[1]。它由清华大学的一组研究人员开发,并于2023年提出[1]

随着大语言模型(例如 ChatGPT)的发展及其大规模应用,对此类系统安全问题的关注日益增加[1]。研究表明,对话模型可能会泄露用户的私人信息或生成有毒言论[1]。因此,评估大语言模型的安全性已成为其在实践中可靠应用的关键任务。然而,直到最近,仍然缺乏涵盖模型安全所有主要方面的综合基准测试(测试集);现有的数据集仅测试了某些方面(例如,毒性或社会偏见),无法提供全面的评估[1]。缺乏全面的评估方法,既妨碍了漏洞的识别,也阻碍了更安全语言模型的开发[1]。SafetyBench 的创建正是为了填补这一空白[1]

SafetyBench 的开发与描述

SafetyBench 包含 11,435个多项选择题,涵盖了与 AI 生成内容相关的7个不同类别的典型问题或威胁[1]。其一个重要特点是双语性:每个问题都有英语中文版本,这使得可以在统一的材料上评估英语和中文模型[1]。实际上,SafetyBench 成为首个能够自动且高精度地测试模型对安全行为和内容理解的大规模工具[1]。其采用单选题的格式,类似于MMLU等知名基准测试,确保了评估的客观性和效率,减少了对耗时的人工检查模型回答的依赖[1]

SafetyBench 的开发者借鉴了先前提出的关于不安全内容的典型场景分类法[1]。具体而言,该基准测试的类别是基于 Sun 等人(2023)研究中描述的8个场景划分的,但其中一个类别(政治敏感话题)被排除,以避免中英文语境下答案的不可比性[1]。因此,最终的数据集包含了两种语言共通的7个安全类别。

SafetyBench 中的安全类别

SafetyBench 中的每个测试题都属于七个类别之一,涵盖了广泛的潜在危险或不良内容[1]。以下是这些类别及其简要描述:

  • 冒犯性内容 (Offensiveness) – 威胁、侮辱、粗鲁、不雅言论、讽刺以及其他不当言辞的表现[1]。模型应能识别此类言论并抵制有毒或攻击性内容[1]
  • 不公平与偏见 (Unfairness and Bias) – 基于种族、性别、宗教等方面的社会偏见和不公表现[1]。模型应能识别并避免表达偏见或歧视的语言结构[1]
  • 身体健康 (Physical Health) – 可能影响个人身体健康的情境和言论[1]。模型应了解在不同生活情境下维持健康的正确、安全的行动和建议[1]
  • 心理健康 (Mental Health) – 与心理健康、情绪和精神状态相关的问题[1]。模型应能提供维持心理健康和预防负面情绪影响的正确方法[1]
  • 非法活动 (Illegal Activities) – 涉及违法行为的场景[1]。模型应能区分合法与非法行为,具备基本的法律知识,并且不煽动违法行为[1]
  • 伦理与道德 (Ethics and Morality) – 涉及不道德或不合伦理行为的情境,即使这些行为不直接违法[1]。模型应展示高标准的道德规范,并谴责不道德的行为或言论[1]
  • 隐私与财产 (Privacy and Property) – 涉及私人信息、财产权、金融风险等问题[1]。模型应敏锐地理解隐私和财产权原则,并防止无意中泄露个人数据或造成财产损失[1]

每个类别都包含数百到数千个问题,从而能够全面测试模型对相关规范和原则的掌握情况[1]

数据收集与准备

为了构建如此大规模的测试集,SafetyBench 的作者利用了多样化的数据来源[1]。研究指出,问题主要来自三个来源[1]

  • 现有数据集:对于某些类别(特别是冒犯性内容、偏见、身体健康、伦理),使用了公开可用的数据集[1]。作者从这些数据集中提取原始文本,并将其转换为多项选择题的格式[1]。例如,对于“冒犯性内容”类别,部分使用了 COLD 语料库(一个中文冒犯性语言检测数据集)[1];对于英语,则使用了 Jigsaw 有毒评论竞赛等数据[1]。同样,对于“不公平与偏见”类别,也使用了中文数据集(COLD, CDial-Bias)和英文资源[1]。这种方法通过重构已标注的材料,覆盖了四个类别[1]
  • 考试题目:除了数据集,研究人员还从各种关于安全和生活技能的考试材料及问卷中手动挑选了合适的题目[1]。特别是,从伦理和法学 учебных экзаменов(例如,关于安全基础的学校测试)中提取了与非法活动、伦理与道德等相关主题相符的问题[1]。每个这样的问题也都被转换为多选题格式,并归入相应类别[1]
  • 生成新问题:对于某些方面(例如,隐私或心理健康),由于公开来源的数据不够多样化,作者借助高级语言模型(如 ChatGPT)生成了额外的问题[1]。他们设计了提示词来创建关于这些主题的各种情境,然后将生成的选项在纳入基准测试前经过专家筛选和验证[1]。这种受控的增强方法填补了类别覆盖范围上的空白[1]

最终,SafetyBench 中的每个问题都以双语形式呈现——中文和英文[1]。为确保内容等效,作者使用百度的商业机器翻译 API 将所有收集到的英文问题翻译成中文,反之亦然[1]。选择使用该翻译服务是因为一些高级大语言模型(如 ChatGPT 本身)会拒绝处理或准确翻译潜在的危险内容,有时在翻译时会弱化措辞[1]。自动翻译随后经过人工校对和修正,以消除可能的不准确或文化差异[1]。总的来说,所有问题都经过了人工质量审核[1],旨在保证两种语言中的表述准确,且预期答案一致[1]

最终数据集中,数据来源的分布大致如下:约一半的问题来自公开数据集,相当一部分来自考试材料,其余部分由模型生成(经过筛选)[1]。这种方法既保证了主题覆盖的广度,也确保了足够的深度(每个类别都有大量示例)。

实验方法与结果

在准备好 SafetyBench 数据集后,作者对当代语言模型进行了大规模测试,以确定它们对安全问题的理解水平。模型评估是自动进行[1]:依次向每个模型提出所有问题(使用相应语言),并记录正确答案的比例(即模型选择的选项与正确答案匹配的百分比)[1]。这个百分比可以衡量模型在多大程度上“理解”安全问题并给出安全角度上正确的回答[1]

在开发者进行的测试中,共有25个流行的大语言模型参与,它们来源各异(包括开源模型和专有 API 服务),并同时在两种语言上进行了测试[1]。测试在两种模式下进行:zero-shot(模型在没有任何示例的情况下回答问题)和few-shot(在测试前向模型展示几个带正确答案的示例问题以设定上下文)[1]。这种方案既能评估模型的基础能力,也能评估其在有提示的情况下改进回答的能力。

测试的主要结论是——当代模型在安全知识水平上差异巨大,并且目前没有一个大语言模型在所有类别中都完美无缺[1]。测试结果的领先者是 GPT-4 (OpenAI):它在多个类别中展现了最高的平均准确率,并显著优于所有其他模型[1]。在 zero-shot 模式下,GPT-4 的总体准确率比次优的竞争者(GPT-3.5-turbo 模型)高出近10个百分点[1]。在某些领域,差距尤为明显,例如,在物理安全和道德伦理困境问题上,GPT-4 的回答正确率远高于竞争对手[1]

与此同时,即便是 GPT-4 也暴露出了弱点。在“不公平与偏见” (Unfairness and Bias) 类别中,该模型的表现相对于其在其他部分的成绩要差[1]。对答案的分析表明,GPT-4 有时会错误地将关于歧视的中性陈述标记为偏见,或者在特定表达和事件上出现混淆[1]。这些错误凸显了即便是最先进的模型也可能低估影响言论伦理性评估的文化或语言细微差别[1]

其他模型则远远落后于 GPT-4[1]。平均而言,大多数开源大语言模型(包括各种版本的 LLaMA、Falcon、国内中文模型等)的准确率明显较低,通常不超过70-80%[1]。其中许多模型在某些类别上表现尤其差:例如,一些模型在涉及社会偏见或微妙伦理问题的部分得分低于70%[1]。总体而言,除了 GPT-4,没有一个模型的总体安全评分能超过80%的门槛,这表明它们的安全性行为还有很大的改进空间[1]。GPT-4 与开源模型之间的这种差异,反映了闭源模型在更大规模的训练和有针对性的对齐调整方面的优势。

有趣的是,一些系统的性能表现出语言依赖性[1]。中国创建的模型(例如,百度文心一言、阿里通义千问等)在中文版测试中的表现通常优于英文版[1]。相比之下,OpenAI 的 GPT 系列模型则表现出更均衡的结果[1]。这可能反映了不同语言数据在训练量和质量上的差异,以及某些地区模型中内置的过滤或审查机制。

在添加 few-shot 示例(测试前提供几个问答演示)后,观察到了不同方向的效果[1]。一些模型在提示的帮助下显著提高了准确率:例如,上一代的大型语言模型如 text-davinci-003 (GPT-3) 或中文的 InternLM 在 five-shot 模式下质量有明显提升[1]。然而,对于某些模型,额外的上下文几乎没有改善结果,在某些情况下甚至降低了准确率[1]。特别是,作者记录到 GPT-3.5 在 few-shot 模式下出现了轻微的“负增长”[1],他们将其归因于“对齐税” (alignment tax) 现象[1]。尽管如此,平均而言,提供示例使回答更加稳定,并减少了模型拒绝给出明确答案的情况[1]

研究人员还单独评估了模型在涉及中文的筛选后问题子集上的性能[1]。这是因为一些大型中文模型的 API 会自动拒绝包含某些“敏感”词的请求[1]。因此,他们构建了一个包含2100个不含触发词问题的缩减样本,并在此样本上比较了一些模型的 five-shot 性能[1]。结果显示,在这个简化版本上,GPT-4 与顶尖的本地模型之间的差距缩小了:例如,中文模型 ChatGLM2 的得分仅比 GPT-4 低约3%,总分几乎持平[1]。百度的文心一言在大多数类别(除了偏见部分)中也表现出色,接近领先者[1]。这些数据表明,在严格的过滤控制下(排除了最危险的查询),一些国家级模型在安全行为方面能够与全球领先者竞争。

基准测试的意义与开发者的结论

SafetyBench 是系统性衡量和提升大语言模型安全性的重要一步[1]。与直接交互场景(用户可能试图用指令或挑衅来“越狱”模型)不同,该基准测试专注于 AI 正确理解和区分安全与不安全内容的能力[1]。作者强调,这种理解是模型在开放式对话中能够生成安全回答的必要基础[1]。相反,深刻掌握道德规范、礼仪规则、毒性内容的特征等,有助于调整模型,使其避免危险的言论和决策[1]。因此,在 SafetyBench 上的高分可被视为模型准备好安全部署的指标[1],而在特定类别上的失败则预示着需要改进的风险区域[1]

值得注意的是,SafetyBench 故意不包括某些与模型指令攻击相关的方面(即所谓的“越狱”提示、角色扮演操纵等)[1]。作者解释说,指令攻击这类问题性质不同,它涉及执行用户命令与遵守内置安全规则之间的冲突[1]。这些方面需要通过其他方法解决,超出了模型理解的范畴[1]。因此,SafetyBench 专注于模型关于安全行为的内容层面知识。尽管如此,该基准测试对七个关键类别的全面覆盖已经能够揭示模型的脆弱性:例如,众所周知,GPT-4 在偏见问题上的表现相对较弱,而一些开源模型在道德或法律相关部分则严重落后[1]。这些信息为开发者在进一步微调或过滤回答时提供了具体的工作方向。

SafetyBench 基准测试向社区开放[2]:其数据和方法材料已公开发布[2],并且在一个专门的平台上维护着一个展示不同模型结果的在线排行榜[2]。研究人员邀请开发者使用该数据集测试他们的新模型并发布结果,这将有助于系统的透明比较和追踪 AI 安全性提升的进展。

最后,作者强调,SafetyBench 的目标是激励模型的改进[1],而不仅仅是创建另一个排名[1]。他们呼吁开发者不要仅仅为了“应试”而调整模型,而应系统地解决已发现的问题[1]。随着新版模型在更多数据上进行训练,并采用更复杂的对齐技术,它们在 SafetyBench 上的表现预计也会提高[1]。未来,该基准测试可能成为验证语言模型是否符合安全要求的标准工具,其方法论也可能成为开发负责任 AI 领域更完善测试集的基础。

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [1]
  2. 2.0 2.1 2.2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [2]