MT-Bench benchmark
MT-Bench (сокр. от англ. Multi-Turn Benchmark, «многоходовой бенчмарк») — это эталонный набор тестовых заданий (бенчмарк) для оценки больших языковых моделей (LLM) в условиях многоходового диалога. Бенчмарк был предложен в 2023 году командой исследователей LMSYS (во главе с Ляньмином Чжэном, Lianmin Zheng) как часть метода LLM-as-a-Judge («LLM в роли судьи») для объективного сравнения качества чат-ботов[1].
В отличие от традиционных одноходовых тестов (таких как MMLU), MT-Bench проверяет способность моделей вести многоэтапный диалог, последовательно воспринимать новые вводные и точно следовать инструкциям пользователя. Целью является более реалистичная оценка работы чат-ботов в сложных сценариях, ориентированная на соответствие человеческим предпочтениям и практическим требованиям разговорных систем[2].
Предпосылки создания
Развитие диалоговых LLM-моделей, таких как ChatGPT, GPT-4 и Vicuna, выявило разрыв между традиционными метриками качества и реальным пользовательским восприятием ответов. Оказалось, что улучшение модели с точки зрения согласованности с человеческими инструкциями (через RLHF) не всегда повышает результаты на старых, одноходовых бенчмарках. Тесты вроде MMLU или HELM зачастую не различают улучшенных («выравненных») чат-ботов и их базовых моделей. Это указывает на ограниченность прежних методик, которые не отражают качество многоходового взаимодействия и инструкций в открытой форме.
MT-Bench появился как ответ на эту проблему, предлагая набор вопросов открытого типа в формате диалога, который фокусируется на двух аспектах: 1. Умении модели поддерживать последовательную беседу через несколько шагов (turns). 2. Точном следовании сложным инструкциям пользователя[1].
Структура и содержание бенчмарка
MT-Bench состоит из 80 тщательно подобранных многоходовых диалоговых сценариев, охватывающих различные типы заданий. Каждый сценарий включает серию из нескольких обменов между пользователем и моделью, проверяя способность модели удерживать контекст и адаптироваться к новым вводным. Диалоги сгруппированы по 8 категориям задач:
- Writing (написание текста) — проверка творческих навыков (например, сочинение блога).
- Roleplay (ролевая беседа) — моделирование диалогов в определённых ролях.
- Extraction (извлечение информации) — умение извлекать факты из предоставленного контекста.
- Reasoning (логическое рассуждение) — решение задач на логическое мышление.
- Math (математика) — решение математических задач.
- Coding (программирование) — написание или отладка кода.
- STEM (науки и техника) — вопросы из естественнонаучных областей.
- Humanities (гуманитарные знания) — вопросы по истории, литературе, общественным наукам.
В каждой категории представлено по 10 диалоговых задач. Задания намеренно включают каверзные продолжения (например, внезапные уточняющие вопросы), чтобы испытать модель в условно «реальной» беседе[3].
Методика оценки: LLM-as-a-Judge
Ключевой особенностью MT-Bench является использование сильной языковой модели в роли судьи для автоматизированной оценки ответов (LLM-as-a-Judge). В оригинальной работе в этой роли выступала модель GPT-4[1].
Процедура оценки строится следующим образом: 1. Для каждого диалогового сценария несколько моделей-участников генерируют ответы. 2. Модель-судья (GPT-4) сравнивает эти ответы (в формате парного сравнения или оценки по балльной шкале) и выносит вердикт о предпочтительности.
Автоматизированное судейство заменяет трудоёмкую ручную разметку. Исследователи показали, что оценки GPT-4 как судьи имеют более 80% совпадения с результатами экспертов-людей, что сопоставимо с согласованностью между самими людьми. Это свидетельствует о надёжности метода и возможности масштабировать оценки без прямого участия человека. Для повышения объективности были учтены и смягчены потенциальные смещения модели-судьи, такие как эффект позиционного смещения (предпочтение первому ответу), многословия (предпочтение более длинному ответу) и самопревозношения (лояльность к ответам в собственном стиле)[1].
Результаты и применение
MT-Bench позволил выявить заметные различия в качествах современных моделей. В категориях логических рассуждений, математики и кодирования GPT-4 значительно превзошёл предыдущие версии (например, GPT-3.5). Это подтвердило, что более крупные модели лучше удерживают контекст на нескольких шагах диалога.
Для практического использования результатов команда LMSYS запустила публичный лидерборд, где модели ранжируются по среднему MT-Bench скору и рейтингу Elo из Chatbot Arena. Этот рейтинг регулярно обновляется, отражая прогресс в отрасли. Сам датасет и код для его прогона были выложены в открытый доступ, что позволяет независимым разработчикам тестировать свои модели[2].
Ограничения и критика
Несмотря на успешное применение, MT-Bench и подход LLM-as-a-Judge имеют ряд ограничений:
- Несовершенство судьи. Модель-судья (например, GPT-4) не всесильна: она не всегда распознаёт фактические ошибки или галлюцинации в ответах тестируемых моделей.
- Сложности с оценкой логики и математики. LLM-судья может не полностью проследить сложное рассуждение или проверить доказательство, что чревато ошибками при оценке.
- Смещения (Biases). Несмотря на меры по их смягчению, модель-судья может сохранять предвзятость к определённому стилю или формату ответа.
Эти аспекты означают, что в критически важных приложениях всё ещё желателен человеческий надзор или комбинированные методы оценки.
Развитие и расширения
Успех MT-Bench стимулировал появление расширенных версий. В 2024 году была предложена методика MT-Bench-101, нацеленная на ещё более детальный анализ способностей моделей в диалоге. Авторы сформировали трёхуровневую таксономию навыков и собрали значительно больший датасет, что позволило выявить тонкие различия в поведении моделей на разных этапах диалога[4].
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]
- ↑ 2,0 2,1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]
- ↑ «MT-Bench - GM-RKB». GaborMelli.com. [3]
- ↑ Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]