LMArena

Arena (до 28 января 2026 года — LMArena (Large Model Arena), ранее — Chatbot Arena) — открытая краудсорсинговая веб-платформа для оценки и сравнительного ранжирования больших языковых моделей (LLM) и мультимодальных моделей (текст, изображение, видео) по реальным человеческим предпочтениям. Основу платформы составляют анонимные парные сравнения (blind battles) моделей и система рейтинга Elo; на их основе публикуются прозрачные публичные лидерборды, считающиеся одним из наиболее авторитетных независимых бенчмарков frontier-моделей искусственного интеллекта.^[1]^[2]

Платформа возникла в 2023 году как академический исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). В сентябре 2024 года проект «выпустился» на самостоятельный домен lmarena.ai («Graduation»)^[3]. В апреле 2025 года была создана независимая компания Arena Intelligence Inc., а 21 мая 2025 года привлечён сид-раунд в $100 млн (оценка $600 млн, основные инвесторы — a16z и UC Investments)^[4]^[5]. 6 января 2026 года компания закрыла раунд Series A объёмом $150 млн при пост-мани оценке $1,7 млрд^[6]. 28 января 2026 года состоялся финальный ребрендинг — платформа стала называться Arena и перешла на домен arena.ai^[7]^[8].

История

Платформа была запущена в апреле 2023 года под названием Chatbot Arena как исследовательский проект организации LMSYS Org (Large Model Systems Organization) при Калифорнийском университете в Беркли (Sky Computing Lab). Она стала одним из первых инструментов краудсорсинговой оценки больших языковых моделей через анонимные парные сравнения (blind battles) и систему рейтинга Elo на основе реальных предпочтений пользователей.

24 апреля 2023 — технический запуск Chatbot Arena.
3 мая 2023 — официальный публичный релиз и публикация первого лидерборда.
2023 — релиз первых открытых датасетов: 33 тыс. парных диалогов (июль) и LMSYS‑Chat‑1M (сентябрь, около 1 млн реальных диалогов).
1 марта 2024 — публикация официальной политики платформы, формализация миссии как открытой community-driven системы оценки.
27 июня 2024 — добавление поддержки изображений и начало расширения на мультимодальные задачи.
20 сентября 2024 — «Graduation»: переход на самостоятельный домен lmarena.ai.
Конец 2024 — весна 2025 — запуск специализированных арен (Arena-Hard, WebDev Arena, RepoChat Arena, Style/Sentiment Control и др.).
17 апреля 2025 — официальная инкорпорация как независимая компания Arena Intelligence Inc., запуск бета-версии обновлённой платформы под брендом LMArena.
21 мая 2025 — объявление о создании компании и привлечение сид-раунда в $100 млн (оценка — $600 млн).
31 июля 2025 — публикация открытого датасета из 140 тыс. недавних диалогов Text Arena.
6 января 2026 — привлечение раунда Series A в $150 млн при пост-мани оценке $1,7 млрд.
Январь 2026 — запуск Video Arena (полная поддержка видео-модальности).
28 января 2026 — финальный ребрендинг: платформа стала называться Arena и перешла на домен arena.ai.

К марту 2026 года Arena (arena.ai) обслуживает более 5 млн ежемесячных активных пользователей из 150+ стран, накопила десятки миллионов голосов и остаётся одним из наиболее авторитетных независимых инструментов оценки frontier-моделей ИИ по реальным человеческим предпочтениям.

Как работает оценка

Пользователь вводит запрос и получает два ответа от случайно выбранных анонимных моделей («A» и «B»), после чего голосует за лучший ответ (либо фиксирует ничью/неудовлетворительность). Ранжирование основано на статистической модели Брэдли—Терри (логистическая регрессия по парным предпочтениям), интуитивно близкой к Эло^[1]. Платформа публикует Arena Score и доверительные интервалы, а также применяет коррекции выборки (re‑weighting), чтобы сохранить несмещённость при неравномерном семплировании^[9].

Прозрачность и открытость. Исходные пайплайны оценки и ранжирования открыты в репозитории FastChat^[10]; периодически публикуются части сырых данных для верификации и исследований (напр., релиз 140K диалогов в июле 2025)^[9]^[11]. Согласно FAQ и предупреждениям на главной странице, пользовательские запросы могут раскрываться провайдерам моделей и частично публиковаться для исследовательских целей — не следует отправлять чувствительные данные^[12]^[13].

Правила отбора и семплирования. В лидерборды включаются модели общего доступа (открытые веса/публичный API/публичный сервис). Для стабилизации оценки требуется обычно ≥1000 голосов; не менее 20% баттлов — только между публичными моделями; вероятность семплирования растёт с рейтингом и неопределённостью, а регрессия с перевзвешиванием обеспечивает несмещённость итоговых оценок^[9].

Авто‑метрики и контроль стиля. Для ускоренной оценки и уменьшения эффектов «стилевых» предпочтений применяются вспомогательные методики: MT‑Bench (LLM‑as‑a‑judge)^[14], Arena‑Hard (автогенерация сложных вопросов)^[15], а также Style/Sentiment Control (моделирование и «вылечивание» эффекта тона/эмоций на предпочтения)^[16]. Для Arena‑Hard‑Auto сообщалась очень высокая согласованность с «живыми» человеческими голосами (до ≈98,6% в контролируемых условиях)^[17].

Арены и домены оценки

Платформа развилась в набор «арен» по типам задач:

Text Arena — общие диалоги/задачи, основная таблица^[18].
Vision Arena — мультимодальные модели «текст→изображение/видео/анализ изображений»^[19].
Text‑to‑Image и Image Edit — генерация и правки изображений (в т.ч. кейс nano‑banana)^[20]^[21].
Text‑/Image‑to‑Video — генерация видео^[22].
WebDev Arena — сборка веб‑приложений из описаний^[23].
RepoChat Arena — задачи ИИ‑инженерии по коду/репозиториям^[24].
Search Arena — модели с подключением к веб‑поиску; сначала запущена в апреле 2025 (legacy), затем выведена на основной сайт, сопровождается набором данных и публикацией^[25]^[26]^[27].
BiomedArena.AI — доменно‑специфическая оценка для биомедицинских задач (партнёрство с DataTecnica)^[28].

Применение и влияние

Индустриальная витрина. Крупнейшие вендоры (OpenAI, Anthropic, Google и др.) регулярно тестируют и демонстрируют модели на LMArena; индустриальные медиа описывают платформу как важный ориентир^[5]^[29]. В индустриальной публикации NAACL‑2025 Elo‑оценка Chatbot Arena названа «gold industry‑standard»^[30].
Предрелизное тестирование. Политика допускает анонимные предпросмотры «нерелизнутых» моделей с уведомлением сообщества и последующей публикацией публичных оценок после релиза; минимум ≈1000 голосов для стабилизации^[9].
Известные эпизоды. Весной 2025 обсуждалась анонимная модель Llama‑4 Maverick‑03‑26‑Experimental (инцидент вокруг сравнения с публичными версиями), что привлекло широкое внимание прессы и спровоцировало обновления правил/коммуникаций^[31]^[32]. В августе 2025 «nano‑banana» раскрылся как Gemini 2.5 Flash Image и занял лидирующие позиции в визуальных аренах^[21]^[20].

Ограничения и критика

Несмотря на масштаб и популярность, подход имеет ограничения:

Субъективность и стилевые эффекты. Предпочтения голоса зависят от тона/манеры ответа; команда внедряет Style/Sentiment Control для декуплинга «стиля» и «содержания»^[16].
Непредставительность аудитории. Актив ядра — техно‑энтузиасты/разработчики; для доменных сценариев создаются специализированные арены (Search, WebDev, Biomed и др.)^[33].
Уязвимость к манипуляциям и смещениям. Исследования 2025 года показывают, что при отсутствии жёстких защит возможны стратегии «накрутки» с сотнями–тысячами голосов; при этом совместная работа исследователей с LMArena привела к внедрению мер защиты (CAPTCHA/логин/бот‑протекция/детект аномалий) и росту «стоимости атаки»^[34]^[35]^[36].
Методологическая критика. Работа The Leaderboard Illusion (апрель 2025) указывает на систематические и институциональные факторы, способные искажать поле соревнования; LMArena опубликовала развёрнутый ответ и ведёт публичный changelog методологии^[37]^[38]^[39].

Ссылки

Литература

Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.

Примечания

↑ ^1,0 ^1,1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024.
↑ «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025.
↑ «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024.
↑ «Arena Intelligence Raises $100M Seed Round to Build the Standard for AI Evaluation». PR Newswire / Arena Intelligence, 21 мая 2025. [1]
↑ ^5,0 ^5,1 Wiggers, K. «LMArena, the Chatbot Arena spinoff, raises $100M seed at a $600M valuation». TechCrunch, 21 мая 2025. [2]
↑ «Arena Intelligence Closes $150M Series A at $1.7B Valuation». Arena Intelligence Blog, 6 января 2026. [3]
↑ «We Are Now Arena». Arena Blog, 28 января 2026. [4]
↑ «LMArena is Growing to Support our Community Platform». LMArena Blog, 17 апреля 2025.
↑ ^9,0 ^9,1 ^9,2 ^9,3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [5]
↑ lm‑sys/FastChat (GitHub). [6]
↑ «Releasing 140K Text Arena Conversations». LMArena Blog, 31 июля 2025. [7]
↑ FAQ. LMArena. [8]
↑ Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [9]
↑ Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [10]
↑ Li, T. et al. «From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [11]
↑ ^16,0 ^16,1 «Style and Sentiment Control in the Arena». LMArena Blog, 2025. [12]
↑ Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [13]
↑ Text Arena (English). LMArena. [14]
↑ Vision Arena. LMArena, обновлено 2 сентября 2025. [15]
↑ ^20,0 ^20,1 Text-to-Image Leaderboard. LMArena. [16]
↑ ^21,0 ^21,1 «The nano-banana Story: Gemini 2.5 Flash Image Tops the Visual Arena». LMArena Blog, август 2025. [17]
↑ Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [18] [19]
↑ «Introducing WebDev Arena». LMArena Blog, 2025. [20]
↑ «Introducing RepoChat Arena». LMArena Blog, 2025. [21]
↑ «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [22]
↑ «Search Arena & What We're Learning About Human Preference». LMArena Blog, 23 июля 2025. [23]
↑ Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [24]
↑ «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [25]
↑ Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [26]
↑ Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [27]
↑ «Meta's experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [28]
↑ Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [29]
↑ «Search Arena & What We're Learning…». LMArena Blog, 23 июля 2025. [30]
↑ Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [31]
↑ Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [32]
↑ «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [33]
↑ Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [34]
↑ «Our Response to 'The Leaderboard Illusion'». LMArena Blog, 9 мая 2025. [35]
↑ «Methodology Changelog». LMArena Blog. [36]

[chiang2024-1] 1,0 ^1,1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024.

[hello_2025-2] «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025.

[new_site_2024-3] «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024.

[seed_prn-4] «Arena Intelligence Raises $100M Seed Round to Build the Standard for AI Evaluation». PR Newswire / Arena Intelligence, 21 мая 2025. [1]

[tc_seed-5] 5,0 ^5,1 Wiggers, K. «LMArena, the Chatbot Arena spinoff, raises $100M seed at a $600M valuation». TechCrunch, 21 мая 2025. [2]

[series_a_2026-6] «Arena Intelligence Closes $150M Series A at $1.7B Valuation». Arena Intelligence Blog, 6 января 2026. [3]

[arena_rebrand_2026-7] «We Are Now Arena». Arena Blog, 28 января 2026. [4]

[new_beta_2025-8] «LMArena is Growing to Support our Community Platform». LMArena Blog, 17 апреля 2025.

[policy-9] 9,0 ^9,1 ^9,2 ^9,3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [5]

[10] ‑sys/FastChat (GitHub). [6]

[opendata_2025-11] «Releasing 140K Text Arena Conversations». LMArena Blog, 31 июля 2025. [7]

[12] FAQ. LMArena. [8]

[13] Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [9]

[14] Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [10]

[arena_hard-15] Li, T. et al. «From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [11]

[sentiment_control-16] 16,0 ^16,1 «Style and Sentiment Control in the Arena». LMArena Blog, 2025. [12]

[17] Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [13]

[text_stats-18] Text Arena (English). LMArena. [14]

[19] Vision Arena. LMArena, обновлено 2 сентября 2025. [15]

[tti_page-20] 20,0 ^20,1 Text-to-Image Leaderboard. LMArena. [16]

[nanobanana_blog-21] 21,0 ^21,1 «The nano-banana Story: Gemini 2.5 Flash Image Tops the Visual Arena». LMArena Blog, август 2025. [17]

[22] Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [18] [19]

[webdev_arena-23] «Introducing WebDev Arena». LMArena Blog, 2025. [20]

[repochat_arena-24] «Introducing RepoChat Arena». LMArena Blog, 2025. [21]

[25] «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [22]

[26] «Search Arena & What We're Learning About Human Preference». LMArena Blog, 23 июля 2025. [23]

[27] Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [24]

[28] «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [25]

[29] Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [26]

[30] Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [27]

[31] «Meta's experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [28]

[32] Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [29]

[33] «Search Arena & What We're Learning…». LMArena Blog, 23 июля 2025. [30]

[34] Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [31]

[35] Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [32]

[36] «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [33]

[37] Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [34]

[38] «Our Response to 'The Leaderboard Illusion'». LMArena Blog, 9 мая 2025. [35]

[changelog-39] «Methodology Changelog». LMArena Blog. [36]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

LMArena

Содержание

История

Как работает оценка

Арены и домены оценки

Применение и влияние

Ограничения и критика

Ссылки

Литература

Примечания

Навигация

LMArena

История

Как работает оценка

Арены и домены оценки

Применение и влияние

Ограничения и критика

Ссылки

Литература

Примечания

Навигация

Поиск