LMArena
Arena (до 28 января 2026 года — LMArena (Large Model Arena), ранее — Chatbot Arena) — открытая краудсорсинговая веб-платформа для оценки и сравнительного ранжирования больших языковых моделей (LLM) и мультимодальных моделей (текст, изображение, видео) по реальным человеческим предпочтениям. Основу платформы составляют анонимные парные сравнения (blind battles) моделей и система рейтинга Elo; на их основе публикуются прозрачные публичные лидерборды, считающиеся одним из наиболее авторитетных независимых бенчмарков frontier-моделей искусственного интеллекта.[1][2]
Платформа возникла в 2023 году как академический исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). В сентябре 2024 года проект «выпустился» на самостоятельный домен lmarena.ai («Graduation»)[3]. В апреле 2025 года была создана независимая компания Arena Intelligence Inc., а 21 мая 2025 года привлечён сид-раунд в $100 млн (оценка $600 млн, основные инвесторы — a16z и UC Investments)[4][5]. 6 января 2026 года компания закрыла раунд Series A объёмом $150 млн при пост-мани оценке $1,7 млрд[6]. 28 января 2026 года состоялся финальный ребрендинг — платформа стала называться Arena и перешла на домен arena.ai[7][8].
История
Платформа была запущена в апреле 2023 года под названием Chatbot Arena как исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). Она стала одним из первых инструментов краудсорсинговой оценки больших языковых моделей через анонимные парные сравнения (blind battles) и систему рейтинга Elo на основе реальных предпочтений пользователей.
- 24 апреля 2023 — технический запуск Chatbot Arena.
- 3 мая 2023 — официальный публичный релиз и публикация первого лидерборда.
- 2023 — релиз первых открытых датасетов: 33 тыс. парных диалогов (июль) и LMSYS‑Chat‑1M (сентябрь, около 1 млн реальных диалогов).
- 1 марта 2024 — публикация официальной политики платформы, формализация миссии как открытой community-driven системы оценки.
- 27 июня 2024 — добавление поддержки изображений и начало расширения на мультимодальные задачи.
- 20 сентября 2024 — «Graduation»: переход на самостоятельный домен lmarena.ai.
- Конец 2024 — весна 2025 — запуск специализированных арен (Arena-Hard, WebDev Arena, RepoChat Arena, Style/Sentiment Control и др.).
- 17 апреля 2025 — официальная инкорпорация как независимая компания Arena Intelligence Inc., запуск бета-версии обновлённой платформы под брендом LMArena.
- 21 мая 2025 — объявление о создании компании и привлечение сид-раунда в $100 млн (оценка — $600 млн).
- 31 июля 2025 — публикация открытого датасета из 140 тыс. недавних диалогов Text Arena.
- 6 января 2026 — привлечение раунда Series A в $150 млн при пост-мани оценке $1,7 млрд.
- Январь 2026 — запуск Video Arena (полная поддержка видео-модальности).
- 28 января 2026 — финальный ребрендинг: платформа стала называться Arena и перешла на домен arena.ai.
К марту 2026 года Arena (arena.ai) обслуживает более 5 млн ежемесячных активных пользователей из 150+ стран, накопила десятки миллионов голосов и остаётся одним из наиболее авторитетных независимых инструментов оценки frontier-моделей ИИ по реальным человеческим предпочтениям.
Как работает оценка
Пользователь вводит запрос и получает два ответа от случайно выбранных анонимных моделей («A» и «B»), после чего голосует за лучший ответ (либо фиксирует ничью/неудовлетворительность). Ранжирование основано на статистической модели Брэдли—Терри (логистическая регрессия по парным предпочтениям), интуитивно близкой к Эло[1]. Платформа публикует Arena Score и доверительные интервалы, а также применяет коррекции выборки (re‑weighting), чтобы сохранить несмещённость при неравномерном семплировании[9].
Прозрачность и открытость. Исходные пайплайны оценки и ранжирования открыты в репозитории FastChat[10]; периодически публикуются части сырых данных для верификации и исследований (напр., релиз 140K диалогов в июле 2025)[9][11]. Согласно FAQ и предупреждениям на главной странице, пользовательские запросы могут раскрываться провайдерам моделей и частично публиковаться для исследовательских целей — не следует отправлять чувствительные данные[12][13].
Правила отбора и семплирования. В лидерборды включаются модели общего доступа (открытые веса/публичный API/публичный сервис). Для стабилизации оценки требуется обычно ≥1000 голосов; не менее 20% баттлов — только между публичными моделями; вероятность семплирования растёт с рейтингом и неопределённостью, а регрессия с перевзвешиванием обеспечивает несмещённость итоговых оценок[9].
Авто‑метрики и контроль стиля. Для ускоренной оценки и уменьшения эффектов «стилевых» предпочтений применяются вспомогательные методики: MT‑Bench (LLM‑as‑a‑judge)[14], Arena‑Hard (автогенерация сложных вопросов)[15], а также Style/Sentiment Control (моделирование и «вылечивание» эффекта тона/эмоций на предпочтения)[16]. Для Arena‑Hard‑Auto сообщалась очень высокая согласованность с «живыми» человеческими голосами (до ≈98,6% в контролируемых условиях)[17].
Арены и домены оценки
Платформа развилась в набор «арен» по типам задач:
- Text Arena — общие диалоги/задачи, основная таблица[18].
- Vision Arena — мультимодальные модели «текст→изображение/видео/анализ изображений»[19].
- Text‑to‑Image и Image Edit — генерация и правки изображений (в т.ч. кейс nano‑banana)[20][21].
- Text‑/Image‑to‑Video — генерация видео[22].
- WebDev Arena — сборка веб‑приложений из описаний[23].
- RepoChat Arena — задачи ИИ‑инженерии по коду/репозиториям[24].
- Search Arena — модели с подключением к веб‑поиску; сначала запущена в апреле 2025 (legacy), затем выведена на основной сайт, сопровождается набором данных и публикацией[25][26][27].
- BiomedArena.AI — доменно‑специфическая оценка для биомедицинских задач (партнёрство с DataTecnica)[28].
Применение и влияние
- Индустриальная витрина. Крупнейшие вендоры (OpenAI, Anthropic, Google и др.) регулярно тестируют и демонстрируют модели на LMArena; индустриальные медиа описывают платформу как важный ориентир[5][29]. В индустриальной публикации NAACL‑2025 Elo‑оценка Chatbot Arena названа «gold industry‑standard»[30].
- Предрелизное тестирование. Политика допускает анонимные предпросмотры «нерелизнутых» моделей с уведомлением сообщества и последующей публикацией публичных оценок после релиза; минимум ≈1000 голосов для стабилизации[9].
- Известные эпизоды. Весной 2025 обсуждалась анонимная модель Llama‑4 Maverick‑03‑26‑Experimental (инцидент вокруг сравнения с публичными версиями), что привлекло широкое внимание прессы и спровоцировало обновления правил/коммуникаций[31][32]. В августе 2025 «nano‑banana» раскрылся как Gemini 2.5 Flash Image и занял лидирующие позиции в визуальных аренах[21][20].
Ограничения и критика
Несмотря на масштаб и популярность, подход имеет ограничения:
- Субъективность и стилевые эффекты. Предпочтения голоса зависят от тона/манеры ответа; команда внедряет Style/Sentiment Control для декуплинга «стиля» и «содержания»[16].
- Непредставительность аудитории. Актив ядра — техно‑энтузиасты/разработчики; для доменных сценариев создаются специализированные арены (Search, WebDev, Biomed и др.)[33].
- Уязвимость к манипуляциям и смещениям. Исследования 2025 года показывают, что при отсутствии жёстких защит возможны стратегии «накрутки» с сотнями–тысячами голосов; при этом совместная работа исследователей с LMArena привела к внедрению мер защиты (CAPTCHA/логин/бот‑протекция/детект аномалий) и росту «стоимости атаки»[34][35][36].
- Методологическая критика. Работа The Leaderboard Illusion (апрель 2025) указывает на систематические и институциональные факторы, способные искажать поле соревнования; LMArena опубликовала развёрнутый ответ и ведёт публичный changelog методологии[37][38][39].
Ссылки
- Официальный сайт LMArena
- Блог/политики и обновления LMArena
- Сайт исследовательской группы LMSYS (оригинальный инкубатор проекта)
Литература
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
- Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
- Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
- Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
- Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
- Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
- Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
- Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
- Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.
Примечания
- ↑ 1,0 1,1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024.
- ↑ «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025.
- ↑ «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024.
- ↑ «Arena Intelligence Raises $100M Seed Round to Build the Standard for AI Evaluation». PR Newswire / Arena Intelligence, 21 мая 2025. [1]
- ↑ 5,0 5,1 Wiggers, K. «LMArena, the Chatbot Arena spinoff, raises $100M seed at a $600M valuation». TechCrunch, 21 мая 2025. [2]
- ↑ «Arena Intelligence Closes $150M Series A at $1.7B Valuation». Arena Intelligence Blog, 6 января 2026. [3]
- ↑ «We Are Now Arena». Arena Blog, 28 января 2026. [4]
- ↑ «LMArena is Growing to Support our Community Platform». LMArena Blog, 17 апреля 2025.
- ↑ 9,0 9,1 9,2 9,3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [5]
- ↑ lm‑sys/FastChat (GitHub). [6]
- ↑ «Releasing 140K Text Arena Conversations». LMArena Blog, 31 июля 2025. [7]
- ↑ FAQ. LMArena. [8]
- ↑ Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [9]
- ↑ Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [10]
- ↑ Li, T. et al. «From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [11]
- ↑ 16,0 16,1 «Style and Sentiment Control in the Arena». LMArena Blog, 2025. [12]
- ↑ Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [13]
- ↑ Text Arena (English). LMArena. [14]
- ↑ Vision Arena. LMArena, обновлено 2 сентября 2025. [15]
- ↑ 20,0 20,1 Text-to-Image Leaderboard. LMArena. [16]
- ↑ 21,0 21,1 «The nano-banana Story: Gemini 2.5 Flash Image Tops the Visual Arena». LMArena Blog, август 2025. [17]
- ↑ Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [18] [19]
- ↑ «Introducing WebDev Arena». LMArena Blog, 2025. [20]
- ↑ «Introducing RepoChat Arena». LMArena Blog, 2025. [21]
- ↑ «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [22]
- ↑ «Search Arena & What We're Learning About Human Preference». LMArena Blog, 23 июля 2025. [23]
- ↑ Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [24]
- ↑ «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [25]
- ↑ Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [26]
- ↑ Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [27]
- ↑ «Meta's experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [28]
- ↑ Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [29]
- ↑ «Search Arena & What We're Learning…». LMArena Blog, 23 июля 2025. [30]
- ↑ Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [31]
- ↑ Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [32]
- ↑ «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [33]
- ↑ Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [34]
- ↑ «Our Response to 'The Leaderboard Illusion'». LMArena Blog, 9 мая 2025. [35]
- ↑ «Methodology Changelog». LMArena Blog. [36]