SafetyBench

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

SafetyBench — это первый комплексный бенчмарк для всесторонней оценки безопасности больших языковых моделей [1]. Он был разработан группой исследователей из Университета Цинхуа и представлен в 2023 году[1].

С развитием БЯМ (например, появлением ChatGPT) и их массовым внедрением усилилось внимание к проблемам безопасности таких систем[1]. Исследования показали, что диалоговые модели могут допускать утечки приватной информации пользователей или генерировать токсичные высказывания[1]. Таким образом, оценка безопасности БЯМ стала критически важной задачей для их надёжного применения на практике. Однако до недавнего времени отсутствовали комплексные бенчмарки (наборы тестов), охватывающие все основные аспекты безопасности модели; имеющиеся датасеты проверяли лишь отдельные стороны (например, токсичность либо социальные предубеждения) и не давали целостной картины[1]. Отсутствие всеобъемлющего метода оценки затрудняло как выявление уязвимостей, так и разработку более безопасных языковых моделей[1]. SafetyBench был создан, чтобы восполнить этот пробел[1].

Разработка и описание SafetyBench

SafetyBench представляет собой набор из 11 435 вопросов с выбором ответа (multiple-choice), охватывающих 7 различных категорий типичных проблем или угроз, связанных с содержанием, генерируемым ИИ[1]. Важной особенностью является двуязычность: каждый вопрос доступен на английском и китайском языках, что позволяет оценивать как англоязычные, так и китайские модели на единообразном материале[1]. По сути, SafetyBench стал первым масштабным инструментом, позволяющим автоматически и с высокой точностью тестировать понимание моделью вопросов безопасного поведения и контента[1]. Формат заданий с одним правильным ответом, аналогичный известным бенчмаркам вроде MMLU, обеспечивает объективность и эффективность оценки, снижая зависимость от трудоемкой ручной проверки ответов модели[1].

Разработчики SafetyBench опирались на ранее предложенную таксономию типичных сценариев, связанных с небезопасным контентом[1]. В частности, категории бенчмарка были выделены на основе 8 сценариев, описанных в работе Sun и соавт. (2023), однако одна из категорий (политически чувствительные темы) была исключена, чтобы избежать несопоставимости ответов в китайском и английском контекстах[1]. Таким образом, итоговый набор включает 7 категорий безопасности, общих для двух языков.

Категории безопасности в SafetyBench

Каждый тестовый вопрос в SafetyBench относится к одной из семи категорий, охватывающих широкий спектр потенциально опасных или нежелательных аспектов[1]. Ниже приведены эти категории и их краткое описание:

  • Оскорбительное содержание (Offensiveness) – угрозы, оскорбления, грубость, нецензурная брань, сарказм и другие проявления неприемлемого тона[1]. Модель должна уметь распознавать подобные выпады и противостоять токсичному или агрессивному контенту[1].
  • Предвзятость и дискриминация (Unfairness and Bias) – проявления социального бэйаса и несправедливости по признакам расы, пола, религии и др[1]. Модель должна идентифицировать и избегать языковых конструкций, выражающих предубеждения или дискриминацию[1].
  • Физическое здоровье (Physical Health) – ситуации и высказывания, способные повлиять на физическое здоровье человека[1]. Модель должна знать корректные, безопасные действия и советы для поддержания здоровья в разных жизненных обстоятельствах[1].
  • Психическое здоровье (Mental Health) – вопросы, связанные с психологическим благополучием, эмоциями и ментальным здоровьем[1]. Модель должна предлагать правильные способы поддержания психического здоровья и предотвращения негативных эмоциональных воздействий[1].
  • Незаконная деятельность (Illegal Activities) – сценарии, предполагающие противоправные действия[1]. Модель должна различать законное и незаконное поведение, обладать базовыми знаниями о нормах закона и не подстрекать к нарушению закона[1].
  • Этика и мораль (Ethics and Morality) – ситуации, связанные с неэтичным или аморальным поведением, даже если оно не подпадает напрямую под закон[1]. Модель должна демонстрировать высокие этические стандарты и осуждать неэтичные поступки или высказывания[1].
  • Конфиденциальность и собственность (Privacy and Property) – вопросы, касающиеся приватной информации, права собственности, финансовых рисков и т.д.[1] Модель должна чутко понимать принципы конфиденциальности и имущественных прав и предотвращать непреднамеренное разглашение личных данных или причинение имущественного ущерба[1].

Каждая категория представлена сотнями или тысячами вопросов, что позволяет всесторонне проверить знание моделью соответствующих норм и принципов[1].

Сбор и подготовка данных

Для формирования такого масштабного тестового набора авторы SafetyBench привлекли разнообразные источники данных[1]. В исследовании указано, что вопросы собирались из трех основных источников[1]:

  • Существующие датасеты: Для ряда категорий (в частности, оскорбления, предубеждения, физическое здоровье, этика) были использованы публично доступные наборы данных[1]. Авторы взяли исходные тексты из таких наборов и преобразовали их в формат вопросов с вариантами ответов[1]. Например, для категории Offensiveness частично использован корпус COLD (датасет детекции оскорблений в китайском языке)[1]; для английского языка привлечены данные из конкурса Jigsaw Toxic Comment и др.[1]. Аналогично, для Unfairness and Bias были задействованы китайские наборы (COLD, CDial-Bias) и англоязычные ресурсы[1]. Такой подход позволил покрыть сразу четыре категории за счет переработки уже размеченного материала[1].
  • Экзаменационные вопросы: Помимо датасетов, исследователи вручную отобрали подходящие задания из различных экзаменационных материалов и опросников, посвященных вопросам безопасности и жизненных навыков[1]. В частности, были извлечены вопросы из учебных экзаменов по этике и правоведению (например, школьные тесты по основам безопасности), которые соответствуют категориям Незаконная деятельность, Этика и мораль и другим смежным темам[1]. Каждый такой вопрос также приведен к формату множественного выбора и отнесён к одной из категорий[1].
  • Генерация новых вопросов: Для некоторых аспектов (например, конфиденциальность или психическое здоровье), где в открытых источниках оказалось недостаточно разнообразных данных, авторы прибегли к генерации дополнительных вопросов с помощью самих языковых моделей высокого уровня (таких как ChatGPT)[1]. Были сформулированы промпты для создания разнообразных ситуаций по этим тематикам, после чего полученные варианты тщательно отфильтрованы и проверены экспертами перед включением в бенчмарк[1]. Такой контролируемый augmented подход позволил заполнить пробелы в покрытии категорий[1].

В итоге каждый вопрос SafetyBench был двуязычно представлен — на китайском и на английском языках[1]. Для обеспечения эквивалентности содержания авторы перевели все собранные английские вопросы на китайский и наоборот с помощью коммерческого API машинного перевода Baidu[1]. Использование данного перевода обусловлено тем, что некоторые высокоуровневые БЯМ (например, сам ChatGPT) отказывались обрабатывать или точно переводить потенциально опасный контент, иногда смягчая формулировки при переводе[1]. Автоматические переводы затем были вручную вычитаны и скорректированы, чтобы устранить возможные неточности или культурные нюансы[1]. В целом все вопросы прошли этап человеческой проверки качества[1], что призвано гарантировать корректность формулировок и соответствие ожидаемых ответов в обоих языках[1].

Распределение источников в итоговом датасете примерно следующее: около половины вопросов взято из открытых датасетов, значительная доля — из экзаменационных материалов, и оставшаяся часть сгенерирована моделями (после отбора)[1]. Такой подход обеспечил как широту охвата тем, так и достаточную глубину (множество примеров на каждую категорию).

Методика экспериментов и результаты

После подготовки набора SafetyBench авторы провели масштабное тестирование современных языковых моделей, чтобы определить уровень их понимания вопросов безопасности. Оценка моделей осуществляется автоматически[1]: каждой модели поочередно задаются все вопросы (на соответствующем языке), и фиксируется доля правильных ответов (т.е. процент совпадения выбранного моделью варианта с верным ответом)[1]. Такой процент служит показателем того, насколько хорошо модель “разбирается” в проблемах безопасности и дает корректные с точки зрения безопасности ответы[1].

В испытаниях, проведенных разработчиками, участвовали 25 популярных БЯМ различного происхождения (как открытые модели, так и проприетарные API-сервисы) на обоих языках[1]. Тестирование выполнялось в двух режимах: zero-shot (модели отвечают на вопросы без каких-либо примеров) и few-shot (моделям предварительно показывается несколько примеров вопросов с правильными ответами, чтобы задать контекст)[1]. Такой протокол позволяет оценить как базовые возможности модели, так и способность улучшать ответы при наличии обучающих подсказок.

Главный вывод тестов — современные модели сильно разнятся по уровню безопасностных знаний, и ни одна из доступных БЯМ пока не является безупречной во всех категориях[1]. Лидером по результатам стала модель GPT-4 (OpenAI): она показала наивысшую среднюю точность и существенно опередила все остальные модели во множестве категорий[1]. В режиме zero-shot GPT-4 превзошел ближайшего преследователя (модель GPT-3.5-turbo) почти на 10 процентных пунктов по общей точности[1]. Разрыв особенно велик в отдельных областях, например, по вопросам физической безопасности и морально-этических дилемм GPT-4 отвечал правильно заметно чаще конкурентов[1].

В то же время даже у GPT-4 выявлены слабые места. В категории «Предвзятость и дискриминация» (Unfairness and Bias) эта модель справилась хуже относительно своих же результатов по другим разделам[1]. Анализ ответов показал, что GPT-4 иногда ошибочно помечает нейтральные высказывания о дискриминации как проявление предубеждения или путается в специфических выражениях и событиях[1]. Такие ошибки подчёркивают, что даже самая продвинутая модель может недооценивать культурные или языковые нюансы, влияющие на оценку этичности высказывания[1].

Остальные модели значительно отстали от GPT-4[1]. В среднем большинство открытых БЯМ (включая разные версии LLaMA, Falcon, отечественные китайские модели и т.д.) показали существенно более низкую точность, зачастую не превышая 70-80% правильных ответов[1]. Многие из них особенно слабо справляются с отдельными категориями: например, ряд моделей набрали менее 70% по разделам, связанным с социальными предубеждениями или тонкими этическими вопросами[1]. В совокупности ни одна модель (кроме GPT-4) не преодолела условный порог 80% по общему показателю безопасности, что говорит о большом просторе для дальнейшего улучшения их безопасного поведения[1]. Такая разница между GPT-4 и моделями с открытым кодом указывает на эффект более масштабного обучения и целевой alignment-настройки у закрытых моделей.

Интересно, что производительность некоторых систем оказалась языкозависимой[1]. Модели, созданные в Китае (например, Baidu Ernie, Alibaba Tongyi и др.), как правило, лучше отвечали на китайской версии тестов, чем на английской[1]. Напротив, семейство GPT-моделей от OpenAI продемонстрировало более сбалансированные результаты[1]. Это может отражать разный объем и качество обучения на соответствующих языковых данных, а также наличие встроенных фильтров или цензурных механизмов в некоторых региональных моделях.

При добавлении few-shot примеров (нескольких демонстрационных Q&A перед тестированием) наблюдались разнонаправленные эффекты[1]. Некоторые модели сумели заметно повысить точность благодаря подсказкам: так, большие языковые модели предыдущего поколения вроде text-davinci-003 (GPT-3) или китайская InternLM получили ощутимый прирост качества в режиме пять-шаг[1]. Однако у ряда моделей дополнительный контекст почти не улучшил результат, а в некоторых случаях даже снизил точность[1]. В частности, для GPT-3.5 авторы зафиксировали небольшой «отрицательный прирост» при few-shot[1], что они связывают с явлением «налог выравнивания» (alignment tax)[1]. Тем не менее, в среднем предоставление примеров сделало ответы более стабильными и снизило долю случаев, когда модель отказывается дать чёткий ответ[1].

Отдельно исследователи оценили производительность моделей на фильтрованном поднаборе вопросов, касающихся китайского языка[1]. Дело в том, что API некоторых крупных китайских моделей автоматически отклоняют запросы с определенными «чувствительными» словами[1]. Поэтому была сформирована сокращённая выборка из 2100 вопросов без триггерных слов, и на ней сравнили ряд моделей в пятнашаговом режиме[1]. Результаты показали, что на этой облегченной версии разрыв между GPT-4 и лучшими локальными моделями сокращается: так, китайская модель ChatGLM2 набрала всего на ~3% меньше GPT-4, практически сравнявшись с ней по совокупному баллу[1]. Также Ernie Bot от Baidu уверенно выступил по большинству категорий (кроме раздела предвзятости) и приблизился к лидерам[1]. Эти данные говорят о том, что под жестким фильтрующим контролем (исключив наиболее опасные запросы) некоторые национальные модели способны конкурировать с мировыми лидерами по части безопасного поведения.

Значение бенчмарка и выводы разработчиков

SafetyBench представляет собой важный шаг к систематическому измерению и улучшению безопасности больших языковых моделей[1]. В отличие от сценариев прямого взаимодействия (где пользователи могут пытаться «взломать» модель инструкциями или провокациями), данный бенчмарк фокусируется на способности ИИ правильно понимать и различать безопасное и небезопасное содержание[1]. Авторы подчёркивают, что такое понимание — необходимый фундамент для того, чтобы модель вообще могла генерировать безопасные ответы в открытых диалогах[1]. Напротив, глубокое усвоение норм морали, правил этикета, признаков токсичности и пр. облегчает настройку модели так, чтобы она избегала опасных высказываний и решений[1]. Таким образом, высокие показатели на SafetyBench можно рассматривать как индикатор готовности модели к безопасной эксплуатации[1], а провалы в определённых категориях сигнализируют о зонах риска, требующих доработки[1].

Важно отметить, что SafetyBench намеренно не включает некоторые аспекты, связанные с атакой на сами инструкции модели (так называемые jailbreak-промпты, манипулирование ролями и т.д.)[1]. Авторы объясняют, что проблемы типа instruction attacks имеют иную природу, связанную с конфликтом между выполнением пользовательского приказа и соблюдением встроенных правил безопасности[1]. Эти аспекты решаются другими методами и выходят за рамки понимания модели[1]. Поэтому SafetyBench сконцентрирован именно на содержательном уровне знаний модели о безопасном поведении. Тем не менее, совокупный охват семи ключевых категорий в бенчмарке уже сейчас позволяет выявлять уязвимости моделей: например, известно, что GPT-4 показывает относительно более слабый результат на вопросах о предвзятости, а некоторые открытые модели сильно отстают по разделам, связанным с моралью или законом[1]. Такая информация дает разработчикам конкретные ориентиры, над чем необходимо работать при дальнейшей дообучении или фильтрации ответов.

Бенчмарк SafetyBench открыт для сообщества[2]: его данные и методические материалы выложены в свободном доступе[2], а на специально созданной платформе поддерживается онлайн-лидерборд результатов различных моделей[2]. Исследователи приглашают разработчиков тестировать свои новые модели на этом наборе и публиковать результаты, что будет способствовать прозрачному сравнению систем и отслеживанию прогресса в повышении безопасности ИИ.

Наконец, авторы подчёркивают, что целью SafetyBench является стимулировать улучшение моделей[1], а не просто создать очередной рейтинг[1]. Они призывают разработчиков не ограничиваться попытками “подогнать" модель под тест, а системно устранять выявленные проблемные моменты[1]. По мере того как новые версии моделей будут обучаться на большем количестве данных, с более сложными техниками alignment-настройки, ожидается рост их показателей и на SafetyBench[1]. В перспективе этот бенчмарк может стать стандартным инструментом для проверки соответствия языковых моделей требованиям безопасности, а его методология — основой для разработки ещё более совершенных тестовых наборов в области ответственного ИИ.

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [1]
  2. 2,0 2,1 2,2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [2]