SafetyBench
SafetyBench — это первый комплексный бенчмарк для всесторонней оценки безопасности больших языковых моделей [1]. Он был разработан группой исследователей из Университета Цинхуа и представлен в 2023 году[1].
С развитием БЯМ (например, появлением ChatGPT) и их массовым внедрением усилилось внимание к проблемам безопасности таких систем[1]. Исследования показали, что диалоговые модели могут допускать утечки приватной информации пользователей или генерировать токсичные высказывания[1]. Таким образом, оценка безопасности БЯМ стала критически важной задачей для их надёжного применения на практике. Однако до недавнего времени отсутствовали комплексные бенчмарки (наборы тестов), охватывающие все основные аспекты безопасности модели; имеющиеся датасеты проверяли лишь отдельные стороны (например, токсичность либо социальные предубеждения) и не давали целостной картины[1]. Отсутствие всеобъемлющего метода оценки затрудняло как выявление уязвимостей, так и разработку более безопасных языковых моделей[1]. SafetyBench был создан, чтобы восполнить этот пробел[1].
Разработка и описание SafetyBench
SafetyBench представляет собой набор из 11 435 вопросов с выбором ответа (multiple-choice), охватывающих 7 различных категорий типичных проблем или угроз, связанных с содержанием, генерируемым ИИ[1]. Важной особенностью является двуязычность: каждый вопрос доступен на английском и китайском языках, что позволяет оценивать как англоязычные, так и китайские модели на единообразном материале[1]. По сути, SafetyBench стал первым масштабным инструментом, позволяющим автоматически и с высокой точностью тестировать понимание моделью вопросов безопасного поведения и контента[1]. Формат заданий с одним правильным ответом, аналогичный известным бенчмаркам вроде MMLU, обеспечивает объективность и эффективность оценки, снижая зависимость от трудоемкой ручной проверки ответов модели[1].
Разработчики SafetyBench опирались на ранее предложенную таксономию типичных сценариев, связанных с небезопасным контентом[1]. В частности, категории бенчмарка были выделены на основе 8 сценариев, описанных в работе Sun и соавт. (2023), однако одна из категорий (политически чувствительные темы) была исключена, чтобы избежать несопоставимости ответов в китайском и английском контекстах[1]. Таким образом, итоговый набор включает 7 категорий безопасности, общих для двух языков.
Категории безопасности в SafetyBench
Каждый тестовый вопрос в SafetyBench относится к одной из семи категорий, охватывающих широкий спектр потенциально опасных или нежелательных аспектов[1]. Ниже приведены эти категории и их краткое описание:
- Оскорбительное содержание (Offensiveness) – угрозы, оскорбления, грубость, нецензурная брань, сарказм и другие проявления неприемлемого тона[1]. Модель должна уметь распознавать подобные выпады и противостоять токсичному или агрессивному контенту[1].
- Предвзятость и дискриминация (Unfairness and Bias) – проявления социального бэйаса и несправедливости по признакам расы, пола, религии и др[1]. Модель должна идентифицировать и избегать языковых конструкций, выражающих предубеждения или дискриминацию[1].
- Физическое здоровье (Physical Health) – ситуации и высказывания, способные повлиять на физическое здоровье человека[1]. Модель должна знать корректные, безопасные действия и советы для поддержания здоровья в разных жизненных обстоятельствах[1].
- Психическое здоровье (Mental Health) – вопросы, связанные с психологическим благополучием, эмоциями и ментальным здоровьем[1]. Модель должна предлагать правильные способы поддержания психического здоровья и предотвращения негативных эмоциональных воздействий[1].
- Незаконная деятельность (Illegal Activities) – сценарии, предполагающие противоправные действия[1]. Модель должна различать законное и незаконное поведение, обладать базовыми знаниями о нормах закона и не подстрекать к нарушению закона[1].
- Этика и мораль (Ethics and Morality) – ситуации, связанные с неэтичным или аморальным поведением, даже если оно не подпадает напрямую под закон[1]. Модель должна демонстрировать высокие этические стандарты и осуждать неэтичные поступки или высказывания[1].
- Конфиденциальность и собственность (Privacy and Property) – вопросы, касающиеся приватной информации, права собственности, финансовых рисков и т.д.[1] Модель должна чутко понимать принципы конфиденциальности и имущественных прав и предотвращать непреднамеренное разглашение личных данных или причинение имущественного ущерба[1].
Каждая категория представлена сотнями или тысячами вопросов, что позволяет всесторонне проверить знание моделью соответствующих норм и принципов[1].
Сбор и подготовка данных
Для формирования такого масштабного тестового набора авторы SafetyBench привлекли разнообразные источники данных[1]. В исследовании указано, что вопросы собирались из трех основных источников[1]:
- Существующие датасеты: Для ряда категорий (в частности, оскорбления, предубеждения, физическое здоровье, этика) были использованы публично доступные наборы данных[1]. Авторы взяли исходные тексты из таких наборов и преобразовали их в формат вопросов с вариантами ответов[1]. Например, для категории Offensiveness частично использован корпус COLD (датасет детекции оскорблений в китайском языке)[1]; для английского языка привлечены данные из конкурса Jigsaw Toxic Comment и др.[1]. Аналогично, для Unfairness and Bias были задействованы китайские наборы (COLD, CDial-Bias) и англоязычные ресурсы[1]. Такой подход позволил покрыть сразу четыре категории за счет переработки уже размеченного материала[1].
- Экзаменационные вопросы: Помимо датасетов, исследователи вручную отобрали подходящие задания из различных экзаменационных материалов и опросников, посвященных вопросам безопасности и жизненных навыков[1]. В частности, были извлечены вопросы из учебных экзаменов по этике и правоведению (например, школьные тесты по основам безопасности), которые соответствуют категориям Незаконная деятельность, Этика и мораль и другим смежным темам[1]. Каждый такой вопрос также приведен к формату множественного выбора и отнесён к одной из категорий[1].
- Генерация новых вопросов: Для некоторых аспектов (например, конфиденциальность или психическое здоровье), где в открытых источниках оказалось недостаточно разнообразных данных, авторы прибегли к генерации дополнительных вопросов с помощью самих языковых моделей высокого уровня (таких как ChatGPT)[1]. Были сформулированы промпты для создания разнообразных ситуаций по этим тематикам, после чего полученные варианты тщательно отфильтрованы и проверены экспертами перед включением в бенчмарк[1]. Такой контролируемый augmented подход позволил заполнить пробелы в покрытии категорий[1].
В итоге каждый вопрос SafetyBench был двуязычно представлен — на китайском и на английском языках[1]. Для обеспечения эквивалентности содержания авторы перевели все собранные английские вопросы на китайский и наоборот с помощью коммерческого API машинного перевода Baidu[1]. Использование данного перевода обусловлено тем, что некоторые высокоуровневые БЯМ (например, сам ChatGPT) отказывались обрабатывать или точно переводить потенциально опасный контент, иногда смягчая формулировки при переводе[1]. Автоматические переводы затем были вручную вычитаны и скорректированы, чтобы устранить возможные неточности или культурные нюансы[1]. В целом все вопросы прошли этап человеческой проверки качества[1], что призвано гарантировать корректность формулировок и соответствие ожидаемых ответов в обоих языках[1].
Распределение источников в итоговом датасете примерно следующее: около половины вопросов взято из открытых датасетов, значительная доля — из экзаменационных материалов, и оставшаяся часть сгенерирована моделями (после отбора)[1]. Такой подход обеспечил как широту охвата тем, так и достаточную глубину (множество примеров на каждую категорию).
Методика экспериментов и результаты
После подготовки набора SafetyBench авторы провели масштабное тестирование современных языковых моделей, чтобы определить уровень их понимания вопросов безопасности. Оценка моделей осуществляется автоматически[1]: каждой модели поочередно задаются все вопросы (на соответствующем языке), и фиксируется доля правильных ответов (т.е. процент совпадения выбранного моделью варианта с верным ответом)[1]. Такой процент служит показателем того, насколько хорошо модель “разбирается” в проблемах безопасности и дает корректные с точки зрения безопасности ответы[1].
В испытаниях, проведенных разработчиками, участвовали 25 популярных БЯМ различного происхождения (как открытые модели, так и проприетарные API-сервисы) на обоих языках[1]. Тестирование выполнялось в двух режимах: zero-shot (модели отвечают на вопросы без каких-либо примеров) и few-shot (моделям предварительно показывается несколько примеров вопросов с правильными ответами, чтобы задать контекст)[1]. Такой протокол позволяет оценить как базовые возможности модели, так и способность улучшать ответы при наличии обучающих подсказок.
Главный вывод тестов — современные модели сильно разнятся по уровню безопасностных знаний, и ни одна из доступных БЯМ пока не является безупречной во всех категориях[1]. Лидером по результатам стала модель GPT-4 (OpenAI): она показала наивысшую среднюю точность и существенно опередила все остальные модели во множестве категорий[1]. В режиме zero-shot GPT-4 превзошел ближайшего преследователя (модель GPT-3.5-turbo) почти на 10 процентных пунктов по общей точности[1]. Разрыв особенно велик в отдельных областях, например, по вопросам физической безопасности и морально-этических дилемм GPT-4 отвечал правильно заметно чаще конкурентов[1].
В то же время даже у GPT-4 выявлены слабые места. В категории «Предвзятость и дискриминация» (Unfairness and Bias) эта модель справилась хуже относительно своих же результатов по другим разделам[1]. Анализ ответов показал, что GPT-4 иногда ошибочно помечает нейтральные высказывания о дискриминации как проявление предубеждения или путается в специфических выражениях и событиях[1]. Такие ошибки подчёркивают, что даже самая продвинутая модель может недооценивать культурные или языковые нюансы, влияющие на оценку этичности высказывания[1].
Остальные модели значительно отстали от GPT-4[1]. В среднем большинство открытых БЯМ (включая разные версии LLaMA, Falcon, отечественные китайские модели и т.д.) показали существенно более низкую точность, зачастую не превышая 70-80% правильных ответов[1]. Многие из них особенно слабо справляются с отдельными категориями: например, ряд моделей набрали менее 70% по разделам, связанным с социальными предубеждениями или тонкими этическими вопросами[1]. В совокупности ни одна модель (кроме GPT-4) не преодолела условный порог 80% по общему показателю безопасности, что говорит о большом просторе для дальнейшего улучшения их безопасного поведения[1]. Такая разница между GPT-4 и моделями с открытым кодом указывает на эффект более масштабного обучения и целевой alignment-настройки у закрытых моделей.
Интересно, что производительность некоторых систем оказалась языкозависимой[1]. Модели, созданные в Китае (например, Baidu Ernie, Alibaba Tongyi и др.), как правило, лучше отвечали на китайской версии тестов, чем на английской[1]. Напротив, семейство GPT-моделей от OpenAI продемонстрировало более сбалансированные результаты[1]. Это может отражать разный объем и качество обучения на соответствующих языковых данных, а также наличие встроенных фильтров или цензурных механизмов в некоторых региональных моделях.
При добавлении few-shot примеров (нескольких демонстрационных Q&A перед тестированием) наблюдались разнонаправленные эффекты[1]. Некоторые модели сумели заметно повысить точность благодаря подсказкам: так, большие языковые модели предыдущего поколения вроде text-davinci-003 (GPT-3) или китайская InternLM получили ощутимый прирост качества в режиме пять-шаг[1]. Однако у ряда моделей дополнительный контекст почти не улучшил результат, а в некоторых случаях даже снизил точность[1]. В частности, для GPT-3.5 авторы зафиксировали небольшой «отрицательный прирост» при few-shot[1], что они связывают с явлением «налог выравнивания» (alignment tax)[1]. Тем не менее, в среднем предоставление примеров сделало ответы более стабильными и снизило долю случаев, когда модель отказывается дать чёткий ответ[1].
Отдельно исследователи оценили производительность моделей на фильтрованном поднаборе вопросов, касающихся китайского языка[1]. Дело в том, что API некоторых крупных китайских моделей автоматически отклоняют запросы с определенными «чувствительными» словами[1]. Поэтому была сформирована сокращённая выборка из 2100 вопросов без триггерных слов, и на ней сравнили ряд моделей в пятнашаговом режиме[1]. Результаты показали, что на этой облегченной версии разрыв между GPT-4 и лучшими локальными моделями сокращается: так, китайская модель ChatGLM2 набрала всего на ~3% меньше GPT-4, практически сравнявшись с ней по совокупному баллу[1]. Также Ernie Bot от Baidu уверенно выступил по большинству категорий (кроме раздела предвзятости) и приблизился к лидерам[1]. Эти данные говорят о том, что под жестким фильтрующим контролем (исключив наиболее опасные запросы) некоторые национальные модели способны конкурировать с мировыми лидерами по части безопасного поведения.
Значение бенчмарка и выводы разработчиков
SafetyBench представляет собой важный шаг к систематическому измерению и улучшению безопасности больших языковых моделей[1]. В отличие от сценариев прямого взаимодействия (где пользователи могут пытаться «взломать» модель инструкциями или провокациями), данный бенчмарк фокусируется на способности ИИ правильно понимать и различать безопасное и небезопасное содержание[1]. Авторы подчёркивают, что такое понимание — необходимый фундамент для того, чтобы модель вообще могла генерировать безопасные ответы в открытых диалогах[1]. Напротив, глубокое усвоение норм морали, правил этикета, признаков токсичности и пр. облегчает настройку модели так, чтобы она избегала опасных высказываний и решений[1]. Таким образом, высокие показатели на SafetyBench можно рассматривать как индикатор готовности модели к безопасной эксплуатации[1], а провалы в определённых категориях сигнализируют о зонах риска, требующих доработки[1].
Важно отметить, что SafetyBench намеренно не включает некоторые аспекты, связанные с атакой на сами инструкции модели (так называемые jailbreak-промпты, манипулирование ролями и т.д.)[1]. Авторы объясняют, что проблемы типа instruction attacks имеют иную природу, связанную с конфликтом между выполнением пользовательского приказа и соблюдением встроенных правил безопасности[1]. Эти аспекты решаются другими методами и выходят за рамки понимания модели[1]. Поэтому SafetyBench сконцентрирован именно на содержательном уровне знаний модели о безопасном поведении. Тем не менее, совокупный охват семи ключевых категорий в бенчмарке уже сейчас позволяет выявлять уязвимости моделей: например, известно, что GPT-4 показывает относительно более слабый результат на вопросах о предвзятости, а некоторые открытые модели сильно отстают по разделам, связанным с моралью или законом[1]. Такая информация дает разработчикам конкретные ориентиры, над чем необходимо работать при дальнейшей дообучении или фильтрации ответов.
Бенчмарк SafetyBench открыт для сообщества[2]: его данные и методические материалы выложены в свободном доступе[2], а на специально созданной платформе поддерживается онлайн-лидерборд результатов различных моделей[2]. Исследователи приглашают разработчиков тестировать свои новые модели на этом наборе и публиковать результаты, что будет способствовать прозрачному сравнению систем и отслеживанию прогресса в повышении безопасности ИИ.
Наконец, авторы подчёркивают, что целью SafetyBench является стимулировать улучшение моделей[1], а не просто создать очередной рейтинг[1]. Они призывают разработчиков не ограничиваться попытками “подогнать" модель под тест, а системно устранять выявленные проблемные моменты[1]. По мере того как новые версии моделей будут обучаться на большем количестве данных, с более сложными техниками alignment-настройки, ожидается рост их показателей и на SafetyBench[1]. В перспективе этот бенчмарк может стать стандартным инструментом для проверки соответствия языковых моделей требованиям безопасности, а его методология — основой для разработки ещё более совершенных тестовых наборов в области ответственного ИИ.
Ссылки
- Оригинальная статья SafetyBench (arXiv)
- Репозиторий SafetyBench на GitHub
- Страница датасета SafetyBench на Hugging Face
- Статья SafetyBench на ACL Anthology
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [1]
- ↑ 2,0 2,1 2,2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [2]