SafetyBench

SafetyBench — это первый комплексный бенчмарк для всесторонней оценки безопасности больших языковых моделей ^[1]. Он был разработан группой исследователей из Университета Цинхуа и представлен в 2023 году^[1].

С развитием БЯМ (например, появлением ChatGPT) и их массовым внедрением усилилось внимание к проблемам безопасности таких систем^[1]. Исследования показали, что диалоговые модели могут допускать утечки приватной информации пользователей или генерировать токсичные высказывания^[1]. Таким образом, оценка безопасности БЯМ стала критически важной задачей для их надёжного применения на практике. Однако до недавнего времени отсутствовали комплексные бенчмарки (наборы тестов), охватывающие все основные аспекты безопасности модели; имеющиеся датасеты проверяли лишь отдельные стороны (например, токсичность либо социальные предубеждения) и не давали целостной картины^[1]. Отсутствие всеобъемлющего метода оценки затрудняло как выявление уязвимостей, так и разработку более безопасных языковых моделей^[1]. SafetyBench был создан, чтобы восполнить этот пробел^[1].

Разработка и описание SafetyBench

SafetyBench представляет собой набор из 11 435 вопросов с выбором ответа (multiple-choice), охватывающих 7 различных категорий типичных проблем или угроз, связанных с содержанием, генерируемым ИИ^[1]. Важной особенностью является двуязычность: каждый вопрос доступен на английском и китайском языках, что позволяет оценивать как англоязычные, так и китайские модели на единообразном материале^[1]. По сути, SafetyBench стал первым масштабным инструментом, позволяющим автоматически и с высокой точностью тестировать понимание моделью вопросов безопасного поведения и контента^[1]. Формат заданий с одним правильным ответом, аналогичный известным бенчмаркам вроде MMLU, обеспечивает объективность и эффективность оценки, снижая зависимость от трудоемкой ручной проверки ответов модели^[1].

Разработчики SafetyBench опирались на ранее предложенную таксономию типичных сценариев, связанных с небезопасным контентом^[1]. В частности, категории бенчмарка были выделены на основе 8 сценариев, описанных в работе Sun и соавт. (2023), однако одна из категорий (политически чувствительные темы) была исключена, чтобы избежать несопоставимости ответов в китайском и английском контекстах^[1]. Таким образом, итоговый набор включает 7 категорий безопасности, общих для двух языков.

Категории безопасности в SafetyBench

Каждый тестовый вопрос в SafetyBench относится к одной из семи категорий, охватывающих широкий спектр потенциально опасных или нежелательных аспектов^[1]. Ниже приведены эти категории и их краткое описание:

Оскорбительное содержание (Offensiveness) – угрозы, оскорбления, грубость, нецензурная брань, сарказм и другие проявления неприемлемого тона^[1]. Модель должна уметь распознавать подобные выпады и противостоять токсичному или агрессивному контенту^[1].
Предвзятость и дискриминация (Unfairness and Bias) – проявления социального бэйаса и несправедливости по признакам расы, пола, религии и др^[1]. Модель должна идентифицировать и избегать языковых конструкций, выражающих предубеждения или дискриминацию^[1].
Физическое здоровье (Physical Health) – ситуации и высказывания, способные повлиять на физическое здоровье человека^[1]. Модель должна знать корректные, безопасные действия и советы для поддержания здоровья в разных жизненных обстоятельствах^[1].
Психическое здоровье (Mental Health) – вопросы, связанные с психологическим благополучием, эмоциями и ментальным здоровьем^[1]. Модель должна предлагать правильные способы поддержания психического здоровья и предотвращения негативных эмоциональных воздействий^[1].
Незаконная деятельность (Illegal Activities) – сценарии, предполагающие противоправные действия^[1]. Модель должна различать законное и незаконное поведение, обладать базовыми знаниями о нормах закона и не подстрекать к нарушению закона^[1].
Этика и мораль (Ethics and Morality) – ситуации, связанные с неэтичным или аморальным поведением, даже если оно не подпадает напрямую под закон^[1]. Модель должна демонстрировать высокие этические стандарты и осуждать неэтичные поступки или высказывания^[1].
Конфиденциальность и собственность (Privacy and Property) – вопросы, касающиеся приватной информации, права собственности, финансовых рисков и т.д.^[1] Модель должна чутко понимать принципы конфиденциальности и имущественных прав и предотвращать непреднамеренное разглашение личных данных или причинение имущественного ущерба^[1].

Каждая категория представлена сотнями или тысячами вопросов, что позволяет всесторонне проверить знание моделью соответствующих норм и принципов^[1].

Сбор и подготовка данных

Для формирования такого масштабного тестового набора авторы SafetyBench привлекли разнообразные источники данных^[1]. В исследовании указано, что вопросы собирались из трех основных источников^[1]:

Существующие датасеты: Для ряда категорий (в частности, оскорбления, предубеждения, физическое здоровье, этика) были использованы публично доступные наборы данных^[1]. Авторы взяли исходные тексты из таких наборов и преобразовали их в формат вопросов с вариантами ответов^[1]. Например, для категории Offensiveness частично использован корпус COLD (датасет детекции оскорблений в китайском языке)^[1]; для английского языка привлечены данные из конкурса Jigsaw Toxic Comment и др.^[1]. Аналогично, для Unfairness and Bias были задействованы китайские наборы (COLD, CDial-Bias) и англоязычные ресурсы^[1]. Такой подход позволил покрыть сразу четыре категории за счет переработки уже размеченного материала^[1].
Экзаменационные вопросы: Помимо датасетов, исследователи вручную отобрали подходящие задания из различных экзаменационных материалов и опросников, посвященных вопросам безопасности и жизненных навыков^[1]. В частности, были извлечены вопросы из учебных экзаменов по этике и правоведению (например, школьные тесты по основам безопасности), которые соответствуют категориям Незаконная деятельность, Этика и мораль и другим смежным темам^[1]. Каждый такой вопрос также приведен к формату множественного выбора и отнесён к одной из категорий^[1].
Генерация новых вопросов: Для некоторых аспектов (например, конфиденциальность или психическое здоровье), где в открытых источниках оказалось недостаточно разнообразных данных, авторы прибегли к генерации дополнительных вопросов с помощью самих языковых моделей высокого уровня (таких как ChatGPT)^[1]. Были сформулированы промпты для создания разнообразных ситуаций по этим тематикам, после чего полученные варианты тщательно отфильтрованы и проверены экспертами перед включением в бенчмарк^[1]. Такой контролируемый augmented подход позволил заполнить пробелы в покрытии категорий^[1].

В итоге каждый вопрос SafetyBench был двуязычно представлен — на китайском и на английском языках^[1]. Для обеспечения эквивалентности содержания авторы перевели все собранные английские вопросы на китайский и наоборот с помощью коммерческого API машинного перевода Baidu^[1]. Использование данного перевода обусловлено тем, что некоторые высокоуровневые БЯМ (например, сам ChatGPT) отказывались обрабатывать или точно переводить потенциально опасный контент, иногда смягчая формулировки при переводе^[1]. Автоматические переводы затем были вручную вычитаны и скорректированы, чтобы устранить возможные неточности или культурные нюансы^[1]. В целом все вопросы прошли этап человеческой проверки качества^[1], что призвано гарантировать корректность формулировок и соответствие ожидаемых ответов в обоих языках^[1].

Распределение источников в итоговом датасете примерно следующее: около половины вопросов взято из открытых датасетов, значительная доля — из экзаменационных материалов, и оставшаяся часть сгенерирована моделями (после отбора)^[1]. Такой подход обеспечил как широту охвата тем, так и достаточную глубину (множество примеров на каждую категорию).

Методика экспериментов и результаты

После подготовки набора SafetyBench авторы провели масштабное тестирование современных языковых моделей, чтобы определить уровень их понимания вопросов безопасности. Оценка моделей осуществляется автоматически^[1]: каждой модели поочередно задаются все вопросы (на соответствующем языке), и фиксируется доля правильных ответов (т.е. процент совпадения выбранного моделью варианта с верным ответом)^[1]. Такой процент служит показателем того, насколько хорошо модель “разбирается” в проблемах безопасности и дает корректные с точки зрения безопасности ответы^[1].

В испытаниях, проведенных разработчиками, участвовали 25 популярных БЯМ различного происхождения (как открытые модели, так и проприетарные API-сервисы) на обоих языках^[1]. Тестирование выполнялось в двух режимах: zero-shot (модели отвечают на вопросы без каких-либо примеров) и few-shot (моделям предварительно показывается несколько примеров вопросов с правильными ответами, чтобы задать контекст)^[1]. Такой протокол позволяет оценить как базовые возможности модели, так и способность улучшать ответы при наличии обучающих подсказок.

Главный вывод тестов — современные модели сильно разнятся по уровню безопасностных знаний, и ни одна из доступных БЯМ пока не является безупречной во всех категориях^[1]. Лидером по результатам стала модель GPT-4 (OpenAI): она показала наивысшую среднюю точность и существенно опередила все остальные модели во множестве категорий^[1]. В режиме zero-shot GPT-4 превзошел ближайшего преследователя (модель GPT-3.5-turbo) почти на 10 процентных пунктов по общей точности^[1]. Разрыв особенно велик в отдельных областях, например, по вопросам физической безопасности и морально-этических дилемм GPT-4 отвечал правильно заметно чаще конкурентов^[1].

В то же время даже у GPT-4 выявлены слабые места. В категории «Предвзятость и дискриминация» (Unfairness and Bias) эта модель справилась хуже относительно своих же результатов по другим разделам^[1]. Анализ ответов показал, что GPT-4 иногда ошибочно помечает нейтральные высказывания о дискриминации как проявление предубеждения или путается в специфических выражениях и событиях^[1]. Такие ошибки подчёркивают, что даже самая продвинутая модель может недооценивать культурные или языковые нюансы, влияющие на оценку этичности высказывания^[1].

Остальные модели значительно отстали от GPT-4^[1]. В среднем большинство открытых БЯМ (включая разные версии LLaMA, Falcon, отечественные китайские модели и т.д.) показали существенно более низкую точность, зачастую не превышая 70-80% правильных ответов^[1]. Многие из них особенно слабо справляются с отдельными категориями: например, ряд моделей набрали менее 70% по разделам, связанным с социальными предубеждениями или тонкими этическими вопросами^[1]. В совокупности ни одна модель (кроме GPT-4) не преодолела условный порог 80% по общему показателю безопасности, что говорит о большом просторе для дальнейшего улучшения их безопасного поведения^[1]. Такая разница между GPT-4 и моделями с открытым кодом указывает на эффект более масштабного обучения и целевой alignment-настройки у закрытых моделей.

Интересно, что производительность некоторых систем оказалась языкозависимой^[1]. Модели, созданные в Китае (например, Baidu Ernie, Alibaba Tongyi и др.), как правило, лучше отвечали на китайской версии тестов, чем на английской^[1]. Напротив, семейство GPT-моделей от OpenAI продемонстрировало более сбалансированные результаты^[1]. Это может отражать разный объем и качество обучения на соответствующих языковых данных, а также наличие встроенных фильтров или цензурных механизмов в некоторых региональных моделях.

При добавлении few-shot примеров (нескольких демонстрационных Q&A перед тестированием) наблюдались разнонаправленные эффекты^[1]. Некоторые модели сумели заметно повысить точность благодаря подсказкам: так, большие языковые модели предыдущего поколения вроде text-davinci-003 (GPT-3) или китайская InternLM получили ощутимый прирост качества в режиме пять-шаг^[1]. Однако у ряда моделей дополнительный контекст почти не улучшил результат, а в некоторых случаях даже снизил точность^[1]. В частности, для GPT-3.5 авторы зафиксировали небольшой «отрицательный прирост» при few-shot^[1], что они связывают с явлением «налог выравнивания» (alignment tax)^[1]. Тем не менее, в среднем предоставление примеров сделало ответы более стабильными и снизило долю случаев, когда модель отказывается дать чёткий ответ^[1].

Отдельно исследователи оценили производительность моделей на фильтрованном поднаборе вопросов, касающихся китайского языка^[1]. Дело в том, что API некоторых крупных китайских моделей автоматически отклоняют запросы с определенными «чувствительными» словами^[1]. Поэтому была сформирована сокращённая выборка из 2100 вопросов без триггерных слов, и на ней сравнили ряд моделей в пятнашаговом режиме^[1]. Результаты показали, что на этой облегченной версии разрыв между GPT-4 и лучшими локальными моделями сокращается: так, китайская модель ChatGLM2 набрала всего на ~3% меньше GPT-4, практически сравнявшись с ней по совокупному баллу^[1]. Также Ernie Bot от Baidu уверенно выступил по большинству категорий (кроме раздела предвзятости) и приблизился к лидерам^[1]. Эти данные говорят о том, что под жестким фильтрующим контролем (исключив наиболее опасные запросы) некоторые национальные модели способны конкурировать с мировыми лидерами по части безопасного поведения.

Значение бенчмарка и выводы разработчиков

SafetyBench представляет собой важный шаг к систематическому измерению и улучшению безопасности больших языковых моделей^[1]. В отличие от сценариев прямого взаимодействия (где пользователи могут пытаться «взломать» модель инструкциями или провокациями), данный бенчмарк фокусируется на способности ИИ правильно понимать и различать безопасное и небезопасное содержание^[1]. Авторы подчёркивают, что такое понимание — необходимый фундамент для того, чтобы модель вообще могла генерировать безопасные ответы в открытых диалогах^[1]. Напротив, глубокое усвоение норм морали, правил этикета, признаков токсичности и пр. облегчает настройку модели так, чтобы она избегала опасных высказываний и решений^[1]. Таким образом, высокие показатели на SafetyBench можно рассматривать как индикатор готовности модели к безопасной эксплуатации^[1], а провалы в определённых категориях сигнализируют о зонах риска, требующих доработки^[1].

Важно отметить, что SafetyBench намеренно не включает некоторые аспекты, связанные с атакой на сами инструкции модели (так называемые jailbreak-промпты, манипулирование ролями и т.д.)^[1]. Авторы объясняют, что проблемы типа instruction attacks имеют иную природу, связанную с конфликтом между выполнением пользовательского приказа и соблюдением встроенных правил безопасности^[1]. Эти аспекты решаются другими методами и выходят за рамки понимания модели^[1]. Поэтому SafetyBench сконцентрирован именно на содержательном уровне знаний модели о безопасном поведении. Тем не менее, совокупный охват семи ключевых категорий в бенчмарке уже сейчас позволяет выявлять уязвимости моделей: например, известно, что GPT-4 показывает относительно более слабый результат на вопросах о предвзятости, а некоторые открытые модели сильно отстают по разделам, связанным с моралью или законом^[1]. Такая информация дает разработчикам конкретные ориентиры, над чем необходимо работать при дальнейшей дообучении или фильтрации ответов.

Бенчмарк SafetyBench открыт для сообщества^[2]: его данные и методические материалы выложены в свободном доступе^[2], а на специально созданной платформе поддерживается онлайн-лидерборд результатов различных моделей^[2]. Исследователи приглашают разработчиков тестировать свои новые модели на этом наборе и публиковать результаты, что будет способствовать прозрачному сравнению систем и отслеживанию прогресса в повышении безопасности ИИ.

Наконец, авторы подчёркивают, что целью SafetyBench является стимулировать улучшение моделей^[1], а не просто создать очередной рейтинг^[1]. Они призывают разработчиков не ограничиваться попытками “подогнать" модель под тест, а системно устранять выявленные проблемные моменты^[1]. По мере того как новые версии моделей будут обучаться на большем количестве данных, с более сложными техниками alignment-настройки, ожидается рост их показателей и на SafetyBench^[1]. В перспективе этот бенчмарк может стать стандартным инструментом для проверки соответствия языковых моделей требованиям безопасности, а его методология — основой для разработки ещё более совершенных тестовых наборов в области ответственного ИИ.

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 ^1,48 ^1,49 ^1,50 ^1,51 ^1,52 ^1,53 ^1,54 ^1,55 ^1,56 ^1,57 ^1,58 ^1,59 ^1,60 ^1,61 ^1,62 ^1,63 ^1,64 ^1,65 ^1,66 ^1,67 ^1,68 ^1,69 ^1,70 ^1,71 ^1,72 ^1,73 ^1,74 ^1,75 ^1,76 ^1,77 ^1,78 ^1,79 ^1,80 ^1,81 ^1,82 ^1,83 ^1,84 ^1,85 ^1,86 ^1,87 ^1,88 ^1,89 ^1,90 ^1,91 ^1,92 ^1,93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [1]
↑ ^2,0 ^2,1 ^2,2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [2]

[arxiv-main-v2-1] 1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 ^1,48 ^1,49 ^1,50 ^1,51 ^1,52 ^1,53 ^1,54 ^1,55 ^1,56 ^1,57 ^1,58 ^1,59 ^1,60 ^1,61 ^1,62 ^1,63 ^1,64 ^1,65 ^1,66 ^1,67 ^1,68 ^1,69 ^1,70 ^1,71 ^1,72 ^1,73 ^1,74 ^1,75 ^1,76 ^1,77 ^1,78 ^1,79 ^1,80 ^1,81 ^1,82 ^1,83 ^1,84 ^1,85 ^1,86 ^1,87 ^1,88 ^1,89 ^1,90 ^1,91 ^1,92 ^1,93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [1]

[arxiv-main-abs-2] 2,0 ^2,1 ^2,2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [2]

[1]

[2]

SafetyBench

Содержание

Разработка и описание SafetyBench

Категории безопасности в SafetyBench

Сбор и подготовка данных

Методика экспериментов и результаты

Значение бенчмарка и выводы разработчиков

Ссылки

Литература

Примечания

Навигация

SafetyBench

Разработка и описание SafetyBench

Категории безопасности в SafetyBench

Сбор и подготовка данных

Методика экспериментов и результаты

Значение бенчмарка и выводы разработчиков

Ссылки

Литература

Примечания

Навигация

Поиск