MT-Bench (benchmark) — MT-Bench 基准测试

MT-Bench（英文 Multi-Turn Benchmark 的缩写，意为“多轮基准测试”）是一个用于在多轮对话场景下评估大型语言模型 (LLM)的基准测试任务集（基准测试）。该基准测试由LMSYS的研究团队（由Lianmin Zheng领导）于2023年提出，作为LLM-as-a-Judge（“LLM作为评判者”）方法的一部分，旨在客观地比较聊天机器人的质量^[1]。

与传统的单轮测试（如MMLU）不同，MT-Bench旨在检验模型进行多阶段对话、持续理解新输入并精确遵循用户指令的能力。其目标是在复杂场景中更真实地评估聊天机器人的表现，重点关注其是否符合人类偏好以及对话系统的实际需求^[2]。

创建背景

随着ChatGPT、GPT-4和Vicuna等对话式LLM模型的发展，传统质量指标与用户对回答的真实感知之间的差距日益显现。事实证明，通过RLHF等方法提升模型与人类指令的一致性，并不总能提高其在旧的单轮基准测试上的得分。像MMLU或HELM这样的测试，通常无法区分经过改进（“对齐”）的聊天机器人与其基础模型。这表明了以往方法的局限性，它们无法反映多轮互动和开放式指令的质量。

MT-Bench应运而生，旨在解决这一问题。它提供了一套对话形式的开放式问题，重点考察两个方面：

模型在多个回合（turns）中保持连贯对话的能力。
精确遵循复杂用户指令的能力^[1]。

基准测试的结构与内容

MT-Bench包含80个精心挑选的多轮对话场景，涵盖了各种任务类型。每个场景都包含用户与模型之间的多轮交流，旨在检验模型保持上下文并适应新输入的能力。这些对话按8个任务类别分组：

Writing（写作）— 检验创意写作能力（例如撰写博客文章）。
Roleplay（角色扮演）— 模拟特定角色的对话。
Extraction（信息提取）— 从给定上下文中提取事实的能力。
Reasoning（逻辑推理）— 解决逻辑思维问题。
Math（数学）— 解决数学问题。
Coding（编程）— 编写或调试代码。
STEM（科学与技术）— 关于自然科学领域的问题。
Humanities（人文学科）— 关于历史、文学、社会科学的问题。

每个类别包含10个对话任务。这些任务特意设计了一些棘手的后续问题（例如，突然提出的澄清性问题），以便在模拟的“真实”对话中对模型进行测试^[3]。

评估方法：LLM-as-a-Judge

MT-Bench的一个关键特点是使用一个强大的语言模型作为评判者，对回答进行自动评估（LLM-as-a-Judge）。在最初的研究中，该角色由GPT-4模型担任^[1]。

评估流程如下：

对于每个对话场景，多个参评模型生成各自的回答。
评判者模型（GPT-4）对这些回答进行比较（以成对比较或分数评分的形式），并就优劣做出判断。

自动化评判取代了耗时费力的人工标注。研究人员发现，作为评判者的GPT-4给出的评分与人类专家的评分有超过80%的一致性，这与人类之间的一致性水平相当。这证明了该方法的可靠性，并使其能够在没有人类直接参与的情况下进行大规模评估。为提高客观性，研究人员还考虑并减轻了评判者模型潜在的偏见，如位置偏见（偏好第一个回答）、冗长偏见（偏好更长的回答）和自我吹捧偏见（偏好与自身风格相似的回答）^[1]。

结果与应用

MT-Bench揭示了现代模型在质量上的显著差异。在逻辑推理、数学和编程等类别中，GPT-4显著优于之前的版本（如GPT-3.5）。这证实了规模更大的模型在多轮对话中能更好地保持上下文。

为了方便实际应用，LMSYS团队推出了一个公开排行榜，根据平均MT-Bench得分和来自Chatbot Arena的Elo等级分对模型进行排名。该排行榜定期更新，反映了行业的发展进程。数据集及其运行代码均已公开发布，允许独立开发者测试自己的模型^[2]。

局限性与批评

尽管MT-Bench和LLM-as-a-Judge方法得到了成功应用，但它们仍存在一些局限性：

评判者的不完美性。评判者模型（如GPT-4）并非万能：它不总能识别被测模型回答中的事实错误或幻觉。
逻辑与数学评估的复杂性。LLM评判者可能无法完全追踪复杂的推理过程或验证一个证明，这在评估时可能导致错误。
偏见 (Biases)。尽管已采取措施减轻偏见，但评判者模型对特定风格或格式的回答仍可能存在偏见。

这些问题意味着，在关键应用中，仍然需要人工监督或采用组合评估方法。

发展与扩展

MT-Bench的成功推动了其扩展版本的出现。2024年，研究人员提出了MT-Bench-101方法，旨在更详细地分析模型在对话中的能力。该研究的作者建立了一个三级技能分类体系，并收集了一个更大的数据集，从而能够揭示模型在对话不同阶段行为的细微差异^[4]。

链接

MT-Bench数据在GitHub上的官方仓库

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]
↑ ^2.0 ^2.1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]
↑ «MT-Bench - GM-RKB». GaborMelli.com. [3]
↑ Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]

[mt_bench_paper-1] 1.0 ^1.1 ^1.2 ^1.3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]

[klu_glossary-2] 2.0 ^2.1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]

[gabor_melli_rkb-3] «MT-Bench - GM-RKB». GaborMelli.com. [3]

[mt_bench_101_paper-4] Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]

[1]

[2]

[3]

[4]

MT-Bench (benchmark) — MT-Bench 基准测试

Contents

创建背景

基准测试的结构与内容

评估方法：LLM-as-a-Judge

结果与应用

局限性与批评

发展与扩展

链接

参考文献

注释

Navigation menu

MT-Bench (benchmark) — MT-Bench 基准测试

创建背景

基准测试的结构与内容

评估方法：LLM-as-a-Judge

结果与应用

局限性与批评

发展与扩展

链接

参考文献

注释

Navigation menu

Search