MT-Bench benchmark

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

MT-Bench (сокр. от англ. Multi-Turn Benchmark, «многоходовой бенчмарк») — это эталонный набор тестовых заданий (бенчмарк) для оценки больших языковых моделей (LLM) в условиях многоходового диалога. Бенчмарк был предложен в 2023 году командой исследователей LMSYS (во главе с Ляньмином Чжэном, Lianmin Zheng) как часть метода LLM-as-a-Judge («LLM в роли судьи») для объективного сравнения качества чат-ботов[1].

В отличие от традиционных одноходовых тестов (таких как MMLU), MT-Bench проверяет способность моделей вести многоэтапный диалог, последовательно воспринимать новые вводные и точно следовать инструкциям пользователя. Целью является более реалистичная оценка работы чат-ботов в сложных сценариях, ориентированная на соответствие человеческим предпочтениям и практическим требованиям разговорных систем[2].

Предпосылки создания

Развитие диалоговых LLM-моделей, таких как ChatGPT, GPT-4 и Vicuna, выявило разрыв между традиционными метриками качества и реальным пользовательским восприятием ответов. Оказалось, что улучшение модели с точки зрения согласованности с человеческими инструкциями (через RLHF) не всегда повышает результаты на старых, одноходовых бенчмарках. Тесты вроде MMLU или HELM зачастую не различают улучшенных («выравненных») чат-ботов и их базовых моделей. Это указывает на ограниченность прежних методик, которые не отражают качество многоходового взаимодействия и инструкций в открытой форме.

MT-Bench появился как ответ на эту проблему, предлагая набор вопросов открытого типа в формате диалога, который фокусируется на двух аспектах: 1. Умении модели поддерживать последовательную беседу через несколько шагов (turns). 2. Точном следовании сложным инструкциям пользователя[1].

Структура и содержание бенчмарка

MT-Bench состоит из 80 тщательно подобранных многоходовых диалоговых сценариев, охватывающих различные типы заданий. Каждый сценарий включает серию из нескольких обменов между пользователем и моделью, проверяя способность модели удерживать контекст и адаптироваться к новым вводным. Диалоги сгруппированы по 8 категориям задач:

  • Writing (написание текста) — проверка творческих навыков (например, сочинение блога).
  • Roleplay (ролевая беседа) — моделирование диалогов в определённых ролях.
  • Extraction (извлечение информации) — умение извлекать факты из предоставленного контекста.
  • Reasoning (логическое рассуждение) — решение задач на логическое мышление.
  • Math (математика) — решение математических задач.
  • Coding (программирование) — написание или отладка кода.
  • STEM (науки и техника) — вопросы из естественнонаучных областей.
  • Humanities (гуманитарные знания) — вопросы по истории, литературе, общественным наукам.

В каждой категории представлено по 10 диалоговых задач. Задания намеренно включают каверзные продолжения (например, внезапные уточняющие вопросы), чтобы испытать модель в условно «реальной» беседе[3].

Методика оценки: LLM-as-a-Judge

Ключевой особенностью MT-Bench является использование сильной языковой модели в роли судьи для автоматизированной оценки ответов (LLM-as-a-Judge). В оригинальной работе в этой роли выступала модель GPT-4[1].

Процедура оценки строится следующим образом: 1. Для каждого диалогового сценария несколько моделей-участников генерируют ответы. 2. Модель-судья (GPT-4) сравнивает эти ответы (в формате парного сравнения или оценки по балльной шкале) и выносит вердикт о предпочтительности.

Автоматизированное судейство заменяет трудоёмкую ручную разметку. Исследователи показали, что оценки GPT-4 как судьи имеют более 80% совпадения с результатами экспертов-людей, что сопоставимо с согласованностью между самими людьми. Это свидетельствует о надёжности метода и возможности масштабировать оценки без прямого участия человека. Для повышения объективности были учтены и смягчены потенциальные смещения модели-судьи, такие как эффект позиционного смещения (предпочтение первому ответу), многословия (предпочтение более длинному ответу) и самопревозношения (лояльность к ответам в собственном стиле)[1].

Результаты и применение

MT-Bench позволил выявить заметные различия в качествах современных моделей. В категориях логических рассуждений, математики и кодирования GPT-4 значительно превзошёл предыдущие версии (например, GPT-3.5). Это подтвердило, что более крупные модели лучше удерживают контекст на нескольких шагах диалога.

Для практического использования результатов команда LMSYS запустила публичный лидерборд, где модели ранжируются по среднему MT-Bench скору и рейтингу Elo из Chatbot Arena. Этот рейтинг регулярно обновляется, отражая прогресс в отрасли. Сам датасет и код для его прогона были выложены в открытый доступ, что позволяет независимым разработчикам тестировать свои модели[2].

Ограничения и критика

Несмотря на успешное применение, MT-Bench и подход LLM-as-a-Judge имеют ряд ограничений:

  • Несовершенство судьи. Модель-судья (например, GPT-4) не всесильна: она не всегда распознаёт фактические ошибки или галлюцинации в ответах тестируемых моделей.
  • Сложности с оценкой логики и математики. LLM-судья может не полностью проследить сложное рассуждение или проверить доказательство, что чревато ошибками при оценке.
  • Смещения (Biases). Несмотря на меры по их смягчению, модель-судья может сохранять предвзятость к определённому стилю или формату ответа.

Эти аспекты означают, что в критически важных приложениях всё ещё желателен человеческий надзор или комбинированные методы оценки.

Развитие и расширения

Успех MT-Bench стимулировал появление расширенных версий. В 2024 году была предложена методика MT-Bench-101, нацеленная на ещё более детальный анализ способностей моделей в диалоге. Авторы сформировали трёхуровневую таксономию навыков и собрали значительно больший датасет, что позволило выявить тонкие различия в поведении моделей на разных этапах диалога[4].

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.


Примечания

  1. 1,0 1,1 1,2 1,3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]
  2. 2,0 2,1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]
  3. «MT-Bench - GM-RKB». GaborMelli.com. [3]
  4. Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]