LMArena

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Arena (до 28 января 2026 года — LMArena (Large Model Arena), ранее — Chatbot Arena) — открытая краудсорсинговая веб-платформа для оценки и сравнительного ранжирования больших языковых моделей (LLM) и мультимодальных моделей (текст, изображение, видео) по реальным человеческим предпочтениям. Основу платформы составляют анонимные парные сравнения (blind battles) моделей и система рейтинга Elo; на их основе публикуются прозрачные публичные лидерборды, считающиеся одним из наиболее авторитетных независимых бенчмарков frontier-моделей искусственного интеллекта.[1][2]

Платформа возникла в 2023 году как академический исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). В сентябре 2024 года проект «выпустился» на самостоятельный домен lmarena.ai («Graduation»)[3]. В апреле 2025 года была создана независимая компания Arena Intelligence Inc., а 21 мая 2025 года привлечён сид-раунд в $100 млн (оценка $600 млн, основные инвесторы — a16z и UC Investments)[4][5]. 6 января 2026 года компания закрыла раунд Series A объёмом $150 млн при пост-мани оценке $1,7 млрд[6]. 28 января 2026 года состоялся финальный ребрендинг — платформа стала называться Arena и перешла на домен arena.ai[7][8].

История

Платформа была запущена в апреле 2023 года под названием Chatbot Arena как исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). Она стала одним из первых инструментов краудсорсинговой оценки больших языковых моделей через анонимные парные сравнения (blind battles) и систему рейтинга Elo на основе реальных предпочтений пользователей.

  • 24 апреля 2023 — технический запуск Chatbot Arena.
  • 3 мая 2023 — официальный публичный релиз и публикация первого лидерборда.
  • 2023 — релиз первых открытых датасетов: 33 тыс. парных диалогов (июль) и LMSYS‑Chat‑1M (сентябрь, около 1 млн реальных диалогов).
  • 1 марта 2024 — публикация официальной политики платформы, формализация миссии как открытой community-driven системы оценки.
  • 27 июня 2024 — добавление поддержки изображений и начало расширения на мультимодальные задачи.
  • 20 сентября 2024 — «Graduation»: переход на самостоятельный домен lmarena.ai.
  • Конец 2024 — весна 2025 — запуск специализированных арен (Arena-Hard, WebDev Arena, RepoChat Arena, Style/Sentiment Control и др.).
  • 17 апреля 2025 — официальная инкорпорация как независимая компания Arena Intelligence Inc., запуск бета-версии обновлённой платформы под брендом LMArena.
  • 21 мая 2025 — объявление о создании компании и привлечение сид-раунда в $100 млн (оценка — $600 млн).
  • 31 июля 2025 — публикация открытого датасета из 140 тыс. недавних диалогов Text Arena.
  • 6 января 2026 — привлечение раунда Series A в $150 млн при пост-мани оценке $1,7 млрд.
  • Январь 2026 — запуск Video Arena (полная поддержка видео-модальности).
  • 28 января 2026 — финальный ребрендинг: платформа стала называться Arena и перешла на домен arena.ai.

К марту 2026 года Arena (arena.ai) обслуживает более 5 млн ежемесячных активных пользователей из 150+ стран, накопила десятки миллионов голосов и остаётся одним из наиболее авторитетных независимых инструментов оценки frontier-моделей ИИ по реальным человеческим предпочтениям.

Как работает оценка

Пользователь вводит запрос и получает два ответа от случайно выбранных анонимных моделей («A» и «B»), после чего голосует за лучший ответ (либо фиксирует ничью/неудовлетворительность). Ранжирование основано на статистической модели Брэдли—Терри (логистическая регрессия по парным предпочтениям), интуитивно близкой к Эло[1]. Платформа публикует Arena Score и доверительные интервалы, а также применяет коррекции выборки (re‑weighting), чтобы сохранить несмещённость при неравномерном семплировании[9].

Прозрачность и открытость. Исходные пайплайны оценки и ранжирования открыты в репозитории FastChat[10]; периодически публикуются части сырых данных для верификации и исследований (напр., релиз 140K диалогов в июле 2025)[9][11]. Согласно FAQ и предупреждениям на главной странице, пользовательские запросы могут раскрываться провайдерам моделей и частично публиковаться для исследовательских целей — не следует отправлять чувствительные данные[12][13].

Правила отбора и семплирования. В лидерборды включаются модели общего доступа (открытые веса/публичный API/публичный сервис). Для стабилизации оценки требуется обычно ≥1000 голосов; не менее 20% баттлов — только между публичными моделями; вероятность семплирования растёт с рейтингом и неопределённостью, а регрессия с перевзвешиванием обеспечивает несмещённость итоговых оценок[9].

Авто‑метрики и контроль стиля. Для ускоренной оценки и уменьшения эффектов «стилевых» предпочтений применяются вспомогательные методики: MT‑Bench (LLM‑as‑a‑judge)[14], Arena‑Hard (автогенерация сложных вопросов)[15], а также Style/Sentiment Control (моделирование и «вылечивание» эффекта тона/эмоций на предпочтения)[16]. Для Arena‑Hard‑Auto сообщалась очень высокая согласованность с «живыми» человеческими голосами (до ≈98,6% в контролируемых условиях)[17].

Арены и домены оценки

Платформа развилась в набор «арен» по типам задач:

  • Text Arena — общие диалоги/задачи, основная таблица[18].
  • Vision Arena — мультимодальные модели «текст→изображение/видео/анализ изображений»[19].
  • Text‑to‑Image и Image Edit — генерация и правки изображений (в т.ч. кейс nano‑banana)[20][21].
  • Text‑/Image‑to‑Video — генерация видео[22].
  • WebDev Arena — сборка веб‑приложений из описаний[23].
  • RepoChat Arena — задачи ИИ‑инженерии по коду/репозиториям[24].
  • Search Arena — модели с подключением к веб‑поиску; сначала запущена в апреле 2025 (legacy), затем выведена на основной сайт, сопровождается набором данных и публикацией[25][26][27].
  • BiomedArena.AI — доменно‑специфическая оценка для биомедицинских задач (партнёрство с DataTecnica)[28].

Применение и влияние

  • Индустриальная витрина. Крупнейшие вендоры (OpenAI, Anthropic, Google и др.) регулярно тестируют и демонстрируют модели на LMArena; индустриальные медиа описывают платформу как важный ориентир[5][29]. В индустриальной публикации NAACL‑2025 Elo‑оценка Chatbot Arena названа «gold industry‑standard»[30].
  • Предрелизное тестирование. Политика допускает анонимные предпросмотры «нерелизнутых» моделей с уведомлением сообщества и последующей публикацией публичных оценок после релиза; минимум ≈1000 голосов для стабилизации[9].
  • Известные эпизоды. Весной 2025 обсуждалась анонимная модель Llama‑4 Maverick‑03‑26‑Experimental (инцидент вокруг сравнения с публичными версиями), что привлекло широкое внимание прессы и спровоцировало обновления правил/коммуникаций[31][32]. В августе 2025 «nano‑banana» раскрылся как Gemini 2.5 Flash Image и занял лидирующие позиции в визуальных аренах[21][20].

Ограничения и критика

Несмотря на масштаб и популярность, подход имеет ограничения:

  • Субъективность и стилевые эффекты. Предпочтения голоса зависят от тона/манеры ответа; команда внедряет Style/Sentiment Control для декуплинга «стиля» и «содержания»[16].
  • Непредставительность аудитории. Актив ядра — техно‑энтузиасты/разработчики; для доменных сценариев создаются специализированные арены (Search, WebDev, Biomed и др.)[33].
  • Уязвимость к манипуляциям и смещениям. Исследования 2025 года показывают, что при отсутствии жёстких защит возможны стратегии «накрутки» с сотнями–тысячами голосов; при этом совместная работа исследователей с LMArena привела к внедрению мер защиты (CAPTCHA/логин/бот‑протекция/детект аномалий) и росту «стоимости атаки»[34][35][36].
  • Методологическая критика. Работа The Leaderboard Illusion (апрель 2025) указывает на систематические и институциональные факторы, способные искажать поле соревнования; LMArena опубликовала развёрнутый ответ и ведёт публичный changelog методологии[37][38][39].

Ссылки

Литература

  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
  • Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
  • Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
  • Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
  • Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
  • Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
  • Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
  • Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
  • Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.


Примечания

  1. 1,0 1,1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024.
  2. «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025.
  3. «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024.
  4. «Arena Intelligence Raises $100M Seed Round to Build the Standard for AI Evaluation». PR Newswire / Arena Intelligence, 21 мая 2025. [1]
  5. 5,0 5,1 Wiggers, K. «LMArena, the Chatbot Arena spinoff, raises $100M seed at a $600M valuation». TechCrunch, 21 мая 2025. [2]
  6. «Arena Intelligence Closes $150M Series A at $1.7B Valuation». Arena Intelligence Blog, 6 января 2026. [3]
  7. «We Are Now Arena». Arena Blog, 28 января 2026. [4]
  8. «LMArena is Growing to Support our Community Platform». LMArena Blog, 17 апреля 2025.
  9. 9,0 9,1 9,2 9,3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [5]
  10. lm‑sys/FastChat (GitHub). [6]
  11. «Releasing 140K Text Arena Conversations». LMArena Blog, 31 июля 2025. [7]
  12. FAQ. LMArena. [8]
  13. Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [9]
  14. Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [10]
  15. Li, T. et al. «From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [11]
  16. 16,0 16,1 «Style and Sentiment Control in the Arena». LMArena Blog, 2025. [12]
  17. Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [13]
  18. Text Arena (English). LMArena. [14]
  19. Vision Arena. LMArena, обновлено 2 сентября 2025. [15]
  20. 20,0 20,1 Text-to-Image Leaderboard. LMArena. [16]
  21. 21,0 21,1 «The nano-banana Story: Gemini 2.5 Flash Image Tops the Visual Arena». LMArena Blog, август 2025. [17]
  22. Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [18] [19]
  23. «Introducing WebDev Arena». LMArena Blog, 2025. [20]
  24. «Introducing RepoChat Arena». LMArena Blog, 2025. [21]
  25. «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [22]
  26. «Search Arena & What We're Learning About Human Preference». LMArena Blog, 23 июля 2025. [23]
  27. Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [24]
  28. «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [25]
  29. Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [26]
  30. Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [27]
  31. «Meta's experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [28]
  32. Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [29]
  33. «Search Arena & What We're Learning…». LMArena Blog, 23 июля 2025. [30]
  34. Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [31]
  35. Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [32]
  36. «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [33]
  37. Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [34]
  38. «Our Response to 'The Leaderboard Illusion'». LMArena Blog, 9 мая 2025. [35]
  39. «Methodology Changelog». LMArena Blog. [36]