ELO‑ранжирование моделей
ELO-ранжирование языковых моделей — это метод оценки и сравнения больших языковых моделей (LLM), основанный на адаптированной системе рейтингов Эло, изначально разработанной для шахмат. Данный подход использует попарные сравнения моделей на основе человеческих предпочтений для создания единого рейтинга, отражающего относительную производительность моделей[1].
В отличие от традиционных бенчмарков, измеряющих абсолютные показатели на конкретных задачах, ELO-системы определяют относительные способности моделей на основе прямых сравнений их ответов человеческими оценщиками. Основной принцип заключается в том, что пользователи сравнивают ответы двух анонимных моделей на один и тот же запрос и выбирают лучший вариант. На основе этих предпочтений рассчитывается рейтинг каждой модели, где более высокий рейтинг указывает на превосходство в человеческих оценках[2].
История развития
Происхождение системы ELO
Система рейтингов ELO была разработана венгерско-американским физиком Арпад Эло (Arpad Emrick Elo, 1903–1992) в 1960-х годах для оценки мастерства шахматистов. Эло, профессор физики, создал систему в качестве улучшения существовавшей системы Харкнесса, которая имела существенные недостатки в точности оценок[3].
- 1960: Шахматная федерация США (USCF) официально приняла систему Эло.
- 1970: Всемирная шахматная федерация (FIDE) начала использовать систему[4].
Адаптация для языковых моделей
Применение ELO для оценки LLM началось с запуска платформы LMSYS Chatbot Arena 3 мая 2023 года. Платформа была создана организацией LMSYS (Large Model Systems Organization) — коллаборацией исследователей из UC Berkeley SkyLab, UC San Diego и Carnegie Mellon University[5].
Методология
Математические основы
Классическая формула ELO
Классическая формула ELO для вычисления ожидаемой вероятности победы модели А над моделью В: `P(A > B) = 1 / (1 + 10^((R_B - R_A) / 400))` где `R_A` и `R_B` — текущие рейтинги моделей.
Обновление рейтинга после сравнения происходит по формуле: `R'_A = R_A + K × (S_A - E_A)` где `K` — коэффициент развития (К-фактор), `S_A` — фактический результат (1 для победы, 0.5 для ничьей, 0 для поражения), а `E_A` — ожидаемый результат[4].
Модель Брэдли-Терри
Современные платформы, включая LMSYS Chatbot Arena, перешли на модель Брэдли-Терри, которая представляет собой статистически более обоснованный подход. Вероятность предпочтения модели `i` над моделью `j` вычисляется как:
`P(i > j) = e^(β_i) / (e^(β_i) + e^(β_j))` где `β_i` и `β_j` — коэффициенты (рейтинги) моделей, оцениваемые методом максимального правдоподобия[2]. Этот метод более стабилен и показывает лучшее согласование с человеческими предпочтениями[6].
Процесс оценки в Chatbot Arena
- Анонимное сравнение: Пользователи взаимодействуют с двумя анонимными моделями параллельно.
- Голосование: После получения ответов пользователи выбирают предпочтительный вариант.
- Раскрытие идентичности: Названия моделей показываются только после голосования.
- Обновление рейтинга: Рейтинги обновляются на основе результатов голосования, как правило, пакетной обработкой для повышения стабильности[2].
Преимущества и недостатки
Преимущества
- Простота и интерпретируемость: Система легка для понимания и реализации.
- Масштабируемость: Позволяет оценивать большое количество моделей без необходимости полных попарных сравнений.
- Соответствие человеческим предпочтениям: Рейтинг напрямую отражает реальные предпочтения пользователей, а не абстрактные метрики.
Недостатки и ограничения
- Проблемы надёжности: Индивидуальные вычисления ELO могут демонстрировать значительную волатильность.
- Нарушения транзитивности: Система не всегда удовлетворяет условию A>B и B>C → A>C, что является фундаментальным ограничением.
- Зависимость от размера выборки: Для получения стабильных рейтингов требуется большая выборка (сотни и тысячи сравнений)[6].
- Предвзятости в оценке: Результаты могут быть смещены из-за предпочтения пользователями более длинных или стилистически отформатированных ответов, а также из-за культурных различий оценщиков.
Заключение
ELO-ранжирование представляет собой важный инструмент в экосистеме оценки языковых моделей, обеспечивая интуитивно понятный способ их сравнения на основе человеческих предпочтений. Несмотря на успех платформ вроде LMSYS Chatbot Arena, метод имеет фундаментальные ограничения, включая проблемы транзитивности и надёжности. Переход от классического ELO к модели Брэдли-Терри является важным усовершенствованием, но будущее оценки LLM, вероятно, будет заключаться в комбинировании множественных подходов для получения более полной картины возможностей моделей.
Ссылки
Литература
- Elo, A. E. (1978). The Rating of Chessplayers, Past and Present. Arco Publishing. archive.org.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Daynauth, R. et al. (2025). Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat. arXiv:2411.14483.
- Liu, Y. et al. (2024). Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators. arXiv:2403.16950.
- Chatzi, I.; Straitouri, E.; Thejaswi, S.; Gomez‑Rodriguez, M. (2024). Prediction‑Powered Ranking of Large Language Models. arXiv:2402.17826.
- Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non‑Transitivity in LLM‑as‑a‑Judge. arXiv:2502.14074.
- Liu, Z. et al. (2025). am‑ELO: A Stable Framework for Arena‑based LLM Evaluation. arXiv:2505.03475.
- Tang, S.; Wang, Y.; Jin, C. (2025). Is Elo Rating Reliable? A Study Under Model Misspecification. arXiv:2502.10985.
- Nair, A. et al. (2025). Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings. arXiv:2506.00178.
- Ameli, S. et al. (2024). A Statistical Framework for Ranking LLM‑Based Chatbots. arXiv:2412.18407.
- Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top LLM Rankings. arXiv:2508.11847.
- Sun, H.; Shen, Y.; Ton, J.‑F. (2024). Rethinking Bradley‑Terry Models in Preference‑Based Reward Modeling: Foundations, Theory, and Alternatives. arXiv:2411.04991.
- Glickman, M. E. (2025). Paired Comparison Models with Strength‑Dependent Ties and Order Effects. arXiv:2505.24783.
- Glickman, M. E. (2025). Rating Competitors in Games with Strength‑Dependent Tie Probabilities. arXiv:2506.11354.
- Hua, H.-F.; Dong, J.; Liu, Z. (2023). Rating of Players by Laplace Approximation and Dynamic Bradley–Terry Model. arXiv:2310.10386.
Примечания
- ↑ «Elo Rating for LLMs: A Deep Dive». Medium. [1]
- ↑ 2,0 2,1 2,2 «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Org. [2]
- ↑ «Elo rating system». В Wikipedia, The Free Encyclopedia. [3]
- ↑ 4,0 4,1 «How Does the Elo Rating System Work?». History Hit. [4]
- ↑ «LMSYS Chatbot Arena: The Ultimate LLM Leaderboard». Originality.AI. [5]
- ↑ 6,0 6,1 Boubdir, N., et al. «Elo Uncovered: Robustness and Best Practices in Language Model Evaluation». arXiv:2310.09277. [6]