Elo ranking of language models — 模型的ELO排名
语言模型的ELO排名是一种评估和比较大型语言模型(LLM)的方法,它基于最初为国际象棋开发的埃洛等级分系统(Elo rating system)的改编版本。该方法通过基于人类偏好的模型成对比较,来创建一个反映模型相对性能的统一排名[1]。
与衡量特定任务绝对性能指标的传统基准测试不同,ELO系统通过人类评估者对其响应的直接比较来确定模型的相对能力。其基本原则是,用户比较两个匿名模型对同一查询的回答,并选择更好的一个。基于这些偏好,计算出每个模型的排名,较高的排名表示在人类评估中表现更优[2]。
发展历史
ELO系统的起源
ELO等级分系统由匈牙利裔美国物理学家阿尔帕德·埃洛(Arpad Emrick Elo,1903–1992)于20世纪60年代开发,用于评估国际象棋棋手的水平。作为一名物理学教授,埃洛创建该系统是为了改进当时存在的哈克尼斯系统(Harkness system),后者在评估准确性方面存在严重缺陷[3]。
- 1960年:美国国际象棋联合会(USCF)正式采用埃洛系统。
- 1970年:国际棋联(FIDE)开始使用该系统[4]。
应用于语言模型
ELO系统在LLM评估中的应用始于2023年5月3日LMSYS Chatbot Arena平台的推出。该平台由LMSYS组织(Large Model Systems Organization)创建,这是一个由加州大学伯克利分校SkyLab、加州大学圣地亚哥分校和卡内基梅隆大学的研究人员组成的合作项目[5]。
方法论
数学基础
经典ELO公式
用于计算模型A战胜模型B的期望概率的经典ELO公式如下: `P(A > B) = 1 / (1 + 10^((R_B - R_A) / 400))` 其中 `R_A` 和 `R_B` 分别是模型的当前排名分数。
比较后的排名更新公式为: `R'_A = R_A + K × (S_A - E_A)` 其中 `K` 是发展系数(K-factor),`S_A` 是实际结果(胜为1,平为0.5,负为0),`E_A` 是期望结果[4]。
布拉德利-特里模型
包括LMSYS Chatbot Arena在内的现代平台已转向布拉德利-特里模型(Bradley-Terry model),这是一种统计上更稳健的方法。模型 `i` 优于模型 `j` 的概率计算如下:
`P(i > j) = e^(β_i) / (e^(β_i) + e^(β_j))` 其中 `β_i` 和 `β_j` 是模型的系数(即排名分数),通过最大似然估计法进行评估[2]。该方法更为稳定,并显示出与人类偏好更好的一致性[6]。
Chatbot Arena评估流程
- 匿名比较: 用户同时与两个匿名模型进行交互。
- 投票: 收到回答后,用户选择更偏好的一个。
- 身份揭示: 模型名称仅在投票后显示。
- 排名更新: 排名根据投票结果进行更新,通常采用批处理以提高稳定性[2]。
优缺点
优点
- 简单且可解释: 该系统易于理解和实施。
- 可扩展性: 允许在无需进行完全成对比较的情况下评估大量模型。
- 符合人类偏好: 排名直接反映用户的实际偏好,而非抽象的性能指标。
缺点与局限性
- 可靠性问题: 单独的ELO计算可能表现出显著的波动性。
- 传递性失效: 该系统并不总能满足 A>B 且 B>C → A>C 的条件,这是一个根本性限制。
- 样本量依赖: 为获得稳定的排名,需要大量样本(数百至数千次比较)[6]。
- 评估偏见: 由于用户可能偏爱更长或格式更精美的回答,以及评估者之间的文化差异,结果可能会产生偏见。
结论
ELO排名是语言模型评估生态系统中的一个重要工具,它提供了一种基于人类偏好来直观比较模型的方法。尽管像LMSYS Chatbot Arena这样的平台取得了成功,但该方法存在根本性的局限,包括传递性和可靠性问题。从经典ELO模型向布拉德利-特里模型的过渡是一项重要改进,但LLM评估的未来可能在于结合多种方法,以更全面地了解模型的能力。
链接
参考文献
- Elo, A. E. (1978). The Rating of Chessplayers, Past and Present. Arco Publishing. archive.org.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Daynauth, R. et al. (2025). Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat. arXiv:2411.14483.
- Liu, Y. et al. (2024). Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators. arXiv:2403.16950.
- Chatzi, I.; Straitouri, E.; Thejaswi, S.; Gomez‑Rodriguez, M. (2024). Prediction‑Powered Ranking of Large Language Models. arXiv:2402.17826.
- Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non‑Transitivity in LLM‑as‑a‑Judge. arXiv:2502.14074.
- Liu, Z. et al. (2025). am‑ELO: A Stable Framework for Arena‑based LLM Evaluation. arXiv:2505.03475.
- Tang, S.; Wang, Y.; Jin, C. (2025). Is Elo Rating Reliable? A Study Under Model Misspecification. arXiv:2502.10985.
- Nair, A. et al. (2025). Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings. arXiv:2506.00178.
- Ameli, S. et al. (2024). A Statistical Framework for Ranking LLM‑Based Chatbots. arXiv:2412.18407.
- Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top LLM Rankings. arXiv:2508.11847.
- Sun, H.; Shen, Y.; Ton, J.‑F. (2024). Rethinking Bradley‑Terry Models in Preference‑Based Reward Modeling: Foundations, Theory, and Alternatives. arXiv:2411.04991.
- Glickman, M. E. (2025). Paired Comparison Models with Strength‑Dependent Ties and Order Effects. arXiv:2505.24783.
- Glickman, M. E. (2025). Rating Competitors in Games with Strength‑Dependent Tie Probabilities. arXiv:2506.11354.
- Hua, H.-F.; Dong, J.; Liu, Z. (2023). Rating of Players by Laplace Approximation and Dynamic Bradley–Terry Model. arXiv:2310.10386.
注释
- ↑ "Elo Rating for LLMs: A Deep Dive". Medium. [1]
- ↑ 2.0 2.1 2.2 "Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings". LMSYS Org. [2]
- ↑ "Elo rating system". In Wikipedia, The Free Encyclopedia. [3]
- ↑ 4.0 4.1 "How Does the Elo Rating System Work?". History Hit. [4]
- ↑ "LMSYS Chatbot Arena: The Ultimate LLM Leaderboard". Originality.AI. [5]
- ↑ 6.0 6.1 Boubdir, N., et al. "Elo Uncovered: Robustness and Best Practices in Language Model Evaluation". arXiv:2310.09277. [6]