LMArena (Chatbot Arena) (PT)

LMArena (Large Model Arena, anteriormente conhecida como Chatbot Arena) é uma plataforma web aberta para avaliação via crowdsourcing e comparação de grandes modelos (LLMs e modelos multimodais) com base em preferências humanas, utilizando comparações anônimas em pares e placares de líderes (leaderboards) públicos^[1]^[2].

A plataforma surgiu a partir da iniciativa de pesquisa LMSYS (UC Berkeley/CMU/UC San Diego) [41], "graduou-se" em setembro de 2024 para um site independente, lmarena.ai^[3], e em maio de 2025 foi formalizada como uma empresa, levantando $100 milhões em financiamento semente (seed) da a16z, UC Investments, entre outros, para desenvolver sua infraestrutura de avaliação aberta^[4]^[5].

História

A plataforma foi lançada em maio de 2023 com o nome Chatbot Arena. Na primavera de 2025, foi oficialmente renomeada para LMArena (Large Model Arena) e formalizada como uma organização independente.

3 de maio de 2023 — Lançamento da Chatbot Arena, o primeiro placar de líderes baseado em "batalhas" anônimas^[6].
2023 — Lançamento de datasets: 33 mil diálogos em pares (julho) e o LMSYS‑Chat‑1M (setembro, 1 milhão de diálogos reais)^[7]^[8].
20 de setembro de 2024 — "Graduation": a plataforma migra para seu próprio domínio, lmarena.ai^[3].
2024–2025 — Expansão da metodologia e das arenas (Arena‑Hard, Style/Sentiment Control, WebDev/RepoChat, etc.)^[9]^[10]^[11]^[12].
27 de abril de 2025 — Atinge um total de mais de 3 milhões de votos, mais de 400 modelos públicos e mais de 300 prévias privadas (closed previews)^[13].
21 de maio de 2025 — LMArena anuncia sua constituição como empresa e uma rodada de financiamento semente de $100 milhões^[4]^[5].
31 de julho de 2025 — Lançamento de um conjunto de dados aberto com 140 mil diálogos recentes da Text Arena^[14].
26–27 de agosto de 2025 — Teste anônimo do Gemini 2.5 Flash Image sob o codinome "nano‑banana"; o modelo posteriormente lidera os rankings de Text‑to‑Image/Image Edit^[15]^[16].
28 de agosto de 2025 — Adição do Microsoft MAI‑1‑preview ao placar de líderes de texto (ver Changelog)^[17].
Status: A aba Text Arena registra 4.075.191 votos (atualizado em 8 de setembro de 2025)^[18].

Como funciona a avaliação

O usuário insere uma consulta (prompt) e recebe duas respostas de modelos anônimos selecionados aleatoriamente ("A" e "B"), votando em seguida na melhor resposta (ou registrando um empate/resposta insatisfatória). A classificação é baseada no modelo estatístico de Bradley-Terry (regressão logística sobre preferências pareadas), intuitivamente similar ao sistema Elo^[1]. A plataforma publica o Arena Score e os intervalos de confiança, além de aplicar correções de amostragem (re-weighting) para manter a imparcialidade em caso de amostragem não uniforme^[19].

Transparência e abertura. Os pipelines de avaliação e classificação são de código aberto no repositório FastChat^[20]; partes dos dados brutos são publicadas periodicamente para verificação e pesquisa (por exemplo, o lançamento de 140 mil diálogos em julho de 2025)^[19]^[14]. De acordo com o FAQ e os avisos na página principal, as consultas dos usuários podem ser divulgadas aos provedores dos modelos e parcialmente publicadas para fins de pesquisa — dados sensíveis não devem ser enviados^[21]^[22].

Regras de seleção e amostragem. Os placares de líderes incluem modelos de acesso geral (pesos abertos/API pública/serviço público). Para estabilizar a avaliação, geralmente são necessários ≥1000 votos; pelo menos 20% das batalhas ocorrem apenas entre modelos públicos; a probabilidade de amostragem aumenta com a classificação e a incerteza, e a regressão com reponderação garante a imparcialidade das pontuações finais^[19].

Métricas automáticas e controle de estilo. Para acelerar a avaliação e reduzir os efeitos de preferências de "estilo", são aplicadas metodologias auxiliares: MT‑Bench (LLM-como-juiz)^[23], Arena‑Hard (geração automática de perguntas complexas)^[9], bem como Style/Sentiment Control (modelagem e "correção" do efeito do tom/emoções nas preferências)^[10]. Para o Arena‑Hard‑Auto, foi relatada uma concordância muito alta com votos humanos "ao vivo" (até ≈98,6% em condições controladas)^[24].

Arenas e domínios de avaliação

A plataforma evoluiu para um conjunto de "arenas" por tipo de tarefa:

Text Arena — diálogos/tarefas gerais, o placar principal^[18].
Vision Arena — modelos multimodais "texto→imagem/vídeo/análise de imagem"^[25].
Text‑to‑Image e Image Edit — geração e edição de imagens (incluindo o caso nano‑banana)^[16]^[15].
Text‑/Image‑to‑Video — geração de vídeo^[26].
WebDev Arena — construção de aplicações web a partir de descrições^[11].
RepoChat Arena — tarefas de engenharia de IA sobre código/repositórios^[12].
Search Arena — modelos com conexão à busca na web; lançada inicialmente em abril de 2025 (legado), depois movida para o site principal, acompanhada por um conjunto de dados e uma publicação^[27]^[28]^[29].
BiomedArena.AI — avaliação específica de domínio para tarefas biomédicas (parceria com a DataTecnica)^[30].

Aplicação e influência

Vitrine da indústria. Grandes fornecedores (OpenAI, Anthropic, Google, etc.) testam e demonstram regularmente seus modelos na LMArena; a mídia do setor descreve a plataforma como uma referência importante^[5]^[31]. Em uma publicação industrial da NAACL‑2025, a avaliação Elo da Chatbot Arena foi chamada de "gold industry‑standard"^[32].
Testes de pré-lançamento. A política permite prévias anônimas de modelos "não lançados", com notificação à comunidade e posterior publicação das avaliações públicas após o lançamento; um mínimo de ≈1000 votos é necessário para estabilização^[19].
Episódios notáveis. Na primavera de 2025, o modelo anônimo Llama‑4 Maverick‑03‑26‑Experimental foi discutido (incidente em torno de sua comparação com versões públicas), o que atraiu ampla atenção da imprensa e provocou atualizações nas regras/comunicações^[33]^[34]. Em agosto de 2025, o "nano‑banana" foi revelado como o Gemini 2.5 Flash Image e assumiu posições de liderança nas arenas visuais^[15]^[16].

Limitações e críticas

Apesar de sua escala e popularidade, a abordagem possui limitações:

Subjetividade e efeitos de estilo. As preferências de voto dependem do tom/maneira da resposta; a equipe está implementando o Style/Sentiment Control para desacoplar "estilo" e "conteúdo"^[10].
Não representatividade do público. O núcleo ativo é composto por entusiastas de tecnologia/desenvolvedores; para cenários de domínio específico, arenas especializadas são criadas (Search, WebDev, Biomed, etc.)^[35].
Vulnerabilidade a manipulações e vieses. Pesquisas de 2025 mostram que, na ausência de proteções rigorosas, são possíveis estratégias para "inflar" os votos com centenas a milhares de votos; no entanto, a colaboração entre pesquisadores e a LMArena levou à implementação de medidas de proteção (CAPTCHA/login/proteção contra bots/detecção de anomalias) e ao aumento do "custo do ataque"^[36]^[37]^[38].
Críticas metodológicas. O trabalho The Leaderboard Illusion (abril de 2025) aponta para fatores sistemáticos e institucionais que podem distorcer o campo competitivo; a LMArena publicou uma resposta detalhada e mantém um changelog público da metodologia^[39]^[40]^[17].

Links

Literatura

Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.

Referências

↑ ^1.0 ^1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
↑ «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 de junho de 2025. [1]
↑ ^3.0 ^3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 de setembro de 2024. [2]
↑ ^4.0 ^4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 de maio de 2025. [3]
↑ ^5.0 ^5.1 ^5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 de maio de 2025. [4]
↑ «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 de maio de 2023. [5]
↑ «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 de julho de 2023. [6]
↑ Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]
↑ ^9.0 ^9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]
↑ ^10.0 ^10.1 ^10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 de abril de 2025. [9]
↑ ^11.0 ^11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 de março de 2025. [10]
↑ ^12.0 ^12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 de abril de 2025. [11]
↑ «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 de abril de 2025. [12]
↑ ^14.0 ^14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 de julho de 2025. [13]
↑ ^15.0 ^15.1 ^15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 de agosto de 2025. [14]
↑ ^16.0 ^16.1 ^16.2 Text‑to‑Image Arena. LMArena, atualizado em 25 de agosto de 2025. [15]
↑ ^17.0 ^17.1 Leaderboard Changelog. LMArena Blog, registros de agosto de 2025. [16]
↑ ^18.0 ^18.1 Text Arena (English). LMArena. [17]
↑ ^19.0 ^19.1 ^19.2 ^19.3 LMArena Leaderboard Policy. LMArena Blog, ed. 8 de setembro de 2025. [18]
↑ lm‑sys/FastChat (GitHub). [19]
↑ FAQ. LMArena. [20]
↑ Página principal da LMArena (aviso sobre a possível publicação de dados e compartilhamento com provedores). [21]
↑ Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]
↑ Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (tabelas de concordância). [23]
↑ Vision Arena. LMArena, atualizado em 2 de setembro de 2025. [24]
↑ Text‑to‑Video e Image‑to‑Video Leaderboards. LMArena, agosto de 2025. [25] [26]
↑ «Introducing the Search Arena». LMArena Blog, 14 de abril de 2025. [27]
↑ «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 de julho de 2025. [28]
↑ Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]
↑ «Introducing BiomedArena.AI». LMArena Blog, 19 de agosto de 2025. [30]
↑ Google. «Gemma 3…», 12 de março de 2025 (link para os resultados da LMArena). [31]
↑ Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]
↑ «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 de abril de 2025. [33]
↑ Esclarecimentos/posts oficiais da LMArena no X sobre o incidente (abril de 2025). [34]
↑ «Search Arena & What We’re Learning…». LMArena Blog, 23 de julho de 2025. [35]
↑ Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]
↑ Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]
↑ «Hundreds of rigged votes can skew…». Fast Company, 6 de fevereiro de 2025. [38]
↑ Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]
↑ «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 de maio de 2025. [40]

[chiang2024-1] 1.0 ^1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv

[hello_2025-2] «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 de junho de 2025. [1]

[new_site_2024-3] 3.0 ^3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 de setembro de 2024. [2]

[seed_prn-4] 4.0 ^4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 de maio de 2025. [3]

[tc_seed-5] 5.0 ^5.1 ^5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 de maio de 2025. [4]

[lmsys_launch_2023-6] «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 de maio de 2023. [5]

[7] «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 de julho de 2023. [6]

[8] Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]

[arena_hard-9] 9.0 ^9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]

[sentiment_control-10] 10.0 ^10.1 ^10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 de abril de 2025. [9]

[webdev_arena-11] 11.0 ^11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 de março de 2025. [10]

[repochat_arena-12] 12.0 ^12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 de abril de 2025. [11]

[3m_2025-13] «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 de abril de 2025. [12]

[opendata_2025-14] 14.0 ^14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 de julho de 2025. [13]

[nanobanana_blog-15] 15.0 ^15.1 ^15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 de agosto de 2025. [14]

[tti_page-16] 16.0 ^16.1 ^16.2 Text‑to‑Image Arena. LMArena, atualizado em 25 de agosto de 2025. [15]

[changelog-17] 17.0 ^17.1 Leaderboard Changelog. LMArena Blog, registros de agosto de 2025. [16]

[text_stats-18] 18.0 ^18.1 Text Arena (English). LMArena. [17]

[policy-19] 19.0 ^19.1 ^19.2 ^19.3 LMArena Leaderboard Policy. LMArena Blog, ed. 8 de setembro de 2025. [18]

[20] ‑sys/FastChat (GitHub). [19]

[21] FAQ. LMArena. [20]

[22] Página principal da LMArena (aviso sobre a possível publicação de dados e compartilhamento com provedores). [21]

[23] Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]

[24] Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (tabelas de concordância). [23]

[25] Vision Arena. LMArena, atualizado em 2 de setembro de 2025. [24]

[26] Text‑to‑Video e Image‑to‑Video Leaderboards. LMArena, agosto de 2025. [25] [26]

[27] «Introducing the Search Arena». LMArena Blog, 14 de abril de 2025. [27]

[28] «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 de julho de 2025. [28]

[29] Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]

[30] «Introducing BiomedArena.AI». LMArena Blog, 19 de agosto de 2025. [30]

[31] Google. «Gemma 3…», 12 de março de 2025 (link para os resultados da LMArena). [31]

[32] Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]

[33] «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 de abril de 2025. [33]

[34] Esclarecimentos/posts oficiais da LMArena no X sobre o incidente (abril de 2025). [34]

[35] «Search Arena & What We’re Learning…». LMArena Blog, 23 de julho de 2025. [35]

[36] Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]

[37] Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]

[38] «Hundreds of rigged votes can skew…». Fast Company, 6 de fevereiro de 2025. [38]

[39] Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]

[40] «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 de maio de 2025. [40]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

LMArena (Chatbot Arena) (PT)

Contents

História

Como funciona a avaliação

Arenas e domínios de avaliação

Aplicação e influência

Limitações e críticas

Links

Literatura

Referências

Navigation menu

LMArena (Chatbot Arena) (PT)

História

Como funciona a avaliação

Arenas e domínios de avaliação

Aplicação e influência

Limitações e críticas

Links

Literatura

Referências

Navigation menu

Search