LMArena (Chatbot Arena) (PT)
LMArena (Large Model Arena, anteriormente conhecida como Chatbot Arena) é uma plataforma web aberta para avaliação via crowdsourcing e comparação de grandes modelos (LLMs e modelos multimodais) com base em preferências humanas, utilizando comparações anônimas em pares e placares de líderes (leaderboards) públicos[1][2].
A plataforma surgiu a partir da iniciativa de pesquisa LMSYS (UC Berkeley/CMU/UC San Diego) [41], "graduou-se" em setembro de 2024 para um site independente, lmarena.ai[3], e em maio de 2025 foi formalizada como uma empresa, levantando $100 milhões em financiamento semente (seed) da a16z, UC Investments, entre outros, para desenvolver sua infraestrutura de avaliação aberta[4][5].
História
A plataforma foi lançada em maio de 2023 com o nome Chatbot Arena. Na primavera de 2025, foi oficialmente renomeada para LMArena (Large Model Arena) e formalizada como uma organização independente.
- 3 de maio de 2023 — Lançamento da Chatbot Arena, o primeiro placar de líderes baseado em "batalhas" anônimas[6].
- 2023 — Lançamento de datasets: 33 mil diálogos em pares (julho) e o LMSYS‑Chat‑1M (setembro, 1 milhão de diálogos reais)[7][8].
- 20 de setembro de 2024 — "Graduation": a plataforma migra para seu próprio domínio, lmarena.ai[3].
- 2024–2025 — Expansão da metodologia e das arenas (Arena‑Hard, Style/Sentiment Control, WebDev/RepoChat, etc.)[9][10][11][12].
- 27 de abril de 2025 — Atinge um total de mais de 3 milhões de votos, mais de 400 modelos públicos e mais de 300 prévias privadas (closed previews)[13].
- 21 de maio de 2025 — LMArena anuncia sua constituição como empresa e uma rodada de financiamento semente de $100 milhões[4][5].
- 31 de julho de 2025 — Lançamento de um conjunto de dados aberto com 140 mil diálogos recentes da Text Arena[14].
- 26–27 de agosto de 2025 — Teste anônimo do Gemini 2.5 Flash Image sob o codinome "nano‑banana"; o modelo posteriormente lidera os rankings de Text‑to‑Image/Image Edit[15][16].
- 28 de agosto de 2025 — Adição do Microsoft MAI‑1‑preview ao placar de líderes de texto (ver Changelog)[17].
- Status: A aba Text Arena registra 4.075.191 votos (atualizado em 8 de setembro de 2025)[18].
Como funciona a avaliação
O usuário insere uma consulta (prompt) e recebe duas respostas de modelos anônimos selecionados aleatoriamente ("A" e "B"), votando em seguida na melhor resposta (ou registrando um empate/resposta insatisfatória). A classificação é baseada no modelo estatístico de Bradley-Terry (regressão logística sobre preferências pareadas), intuitivamente similar ao sistema Elo[1]. A plataforma publica o Arena Score e os intervalos de confiança, além de aplicar correções de amostragem (re-weighting) para manter a imparcialidade em caso de amostragem não uniforme[19].
Transparência e abertura. Os pipelines de avaliação e classificação são de código aberto no repositório FastChat[20]; partes dos dados brutos são publicadas periodicamente para verificação e pesquisa (por exemplo, o lançamento de 140 mil diálogos em julho de 2025)[19][14]. De acordo com o FAQ e os avisos na página principal, as consultas dos usuários podem ser divulgadas aos provedores dos modelos e parcialmente publicadas para fins de pesquisa — dados sensíveis não devem ser enviados[21][22].
Regras de seleção e amostragem. Os placares de líderes incluem modelos de acesso geral (pesos abertos/API pública/serviço público). Para estabilizar a avaliação, geralmente são necessários ≥1000 votos; pelo menos 20% das batalhas ocorrem apenas entre modelos públicos; a probabilidade de amostragem aumenta com a classificação e a incerteza, e a regressão com reponderação garante a imparcialidade das pontuações finais[19].
Métricas automáticas e controle de estilo. Para acelerar a avaliação e reduzir os efeitos de preferências de "estilo", são aplicadas metodologias auxiliares: MT‑Bench (LLM-como-juiz)[23], Arena‑Hard (geração automática de perguntas complexas)[9], bem como Style/Sentiment Control (modelagem e "correção" do efeito do tom/emoções nas preferências)[10]. Para o Arena‑Hard‑Auto, foi relatada uma concordância muito alta com votos humanos "ao vivo" (até ≈98,6% em condições controladas)[24].
Arenas e domínios de avaliação
A plataforma evoluiu para um conjunto de "arenas" por tipo de tarefa:
- Text Arena — diálogos/tarefas gerais, o placar principal[18].
- Vision Arena — modelos multimodais "texto→imagem/vídeo/análise de imagem"[25].
- Text‑to‑Image e Image Edit — geração e edição de imagens (incluindo o caso nano‑banana)[16][15].
- Text‑/Image‑to‑Video — geração de vídeo[26].
- WebDev Arena — construção de aplicações web a partir de descrições[11].
- RepoChat Arena — tarefas de engenharia de IA sobre código/repositórios[12].
- Search Arena — modelos com conexão à busca na web; lançada inicialmente em abril de 2025 (legado), depois movida para o site principal, acompanhada por um conjunto de dados e uma publicação[27][28][29].
- BiomedArena.AI — avaliação específica de domínio para tarefas biomédicas (parceria com a DataTecnica)[30].
Aplicação e influência
- Vitrine da indústria. Grandes fornecedores (OpenAI, Anthropic, Google, etc.) testam e demonstram regularmente seus modelos na LMArena; a mídia do setor descreve a plataforma como uma referência importante[5][31]. Em uma publicação industrial da NAACL‑2025, a avaliação Elo da Chatbot Arena foi chamada de "gold industry‑standard"[32].
- Testes de pré-lançamento. A política permite prévias anônimas de modelos "não lançados", com notificação à comunidade e posterior publicação das avaliações públicas após o lançamento; um mínimo de ≈1000 votos é necessário para estabilização[19].
- Episódios notáveis. Na primavera de 2025, o modelo anônimo Llama‑4 Maverick‑03‑26‑Experimental foi discutido (incidente em torno de sua comparação com versões públicas), o que atraiu ampla atenção da imprensa e provocou atualizações nas regras/comunicações[33][34]. Em agosto de 2025, o "nano‑banana" foi revelado como o Gemini 2.5 Flash Image e assumiu posições de liderança nas arenas visuais[15][16].
Limitações e críticas
Apesar de sua escala e popularidade, a abordagem possui limitações:
- Subjetividade e efeitos de estilo. As preferências de voto dependem do tom/maneira da resposta; a equipe está implementando o Style/Sentiment Control para desacoplar "estilo" e "conteúdo"[10].
- Não representatividade do público. O núcleo ativo é composto por entusiastas de tecnologia/desenvolvedores; para cenários de domínio específico, arenas especializadas são criadas (Search, WebDev, Biomed, etc.)[35].
- Vulnerabilidade a manipulações e vieses. Pesquisas de 2025 mostram que, na ausência de proteções rigorosas, são possíveis estratégias para "inflar" os votos com centenas a milhares de votos; no entanto, a colaboração entre pesquisadores e a LMArena levou à implementação de medidas de proteção (CAPTCHA/login/proteção contra bots/detecção de anomalias) e ao aumento do "custo do ataque"[36][37][38].
- Críticas metodológicas. O trabalho The Leaderboard Illusion (abril de 2025) aponta para fatores sistemáticos e institucionais que podem distorcer o campo competitivo; a LMArena publicou uma resposta detalhada e mantém um changelog público da metodologia[39][40][17].
Links
- Site oficial da LMArena
- Blog/políticas e atualizações da LMArena
- Site do grupo de pesquisa LMSYS (incubadora original do projeto)
Literatura
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
- Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
- Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
- Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
- Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
- Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
- Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
- Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
- Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.
Referências
- ↑ 1.0 1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
- ↑ «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 de junho de 2025. [1]
- ↑ 3.0 3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 de setembro de 2024. [2]
- ↑ 4.0 4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 de maio de 2025. [3]
- ↑ 5.0 5.1 5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 de maio de 2025. [4]
- ↑ «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 de maio de 2023. [5]
- ↑ «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 de julho de 2023. [6]
- ↑ Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]
- ↑ 9.0 9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]
- ↑ 10.0 10.1 10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 de abril de 2025. [9]
- ↑ 11.0 11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 de março de 2025. [10]
- ↑ 12.0 12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 de abril de 2025. [11]
- ↑ «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 de abril de 2025. [12]
- ↑ 14.0 14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 de julho de 2025. [13]
- ↑ 15.0 15.1 15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 de agosto de 2025. [14]
- ↑ 16.0 16.1 16.2 Text‑to‑Image Arena. LMArena, atualizado em 25 de agosto de 2025. [15]
- ↑ 17.0 17.1 Leaderboard Changelog. LMArena Blog, registros de agosto de 2025. [16]
- ↑ 18.0 18.1 Text Arena (English). LMArena. [17]
- ↑ 19.0 19.1 19.2 19.3 LMArena Leaderboard Policy. LMArena Blog, ed. 8 de setembro de 2025. [18]
- ↑ lm‑sys/FastChat (GitHub). [19]
- ↑ FAQ. LMArena. [20]
- ↑ Página principal da LMArena (aviso sobre a possível publicação de dados e compartilhamento com provedores). [21]
- ↑ Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]
- ↑ Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (tabelas de concordância). [23]
- ↑ Vision Arena. LMArena, atualizado em 2 de setembro de 2025. [24]
- ↑ Text‑to‑Video e Image‑to‑Video Leaderboards. LMArena, agosto de 2025. [25] [26]
- ↑ «Introducing the Search Arena». LMArena Blog, 14 de abril de 2025. [27]
- ↑ «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 de julho de 2025. [28]
- ↑ Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]
- ↑ «Introducing BiomedArena.AI». LMArena Blog, 19 de agosto de 2025. [30]
- ↑ Google. «Gemma 3…», 12 de março de 2025 (link para os resultados da LMArena). [31]
- ↑ Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]
- ↑ «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 de abril de 2025. [33]
- ↑ Esclarecimentos/posts oficiais da LMArena no X sobre o incidente (abril de 2025). [34]
- ↑ «Search Arena & What We’re Learning…». LMArena Blog, 23 de julho de 2025. [35]
- ↑ Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]
- ↑ Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]
- ↑ «Hundreds of rigged votes can skew…». Fast Company, 6 de fevereiro de 2025. [38]
- ↑ Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]
- ↑ «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 de maio de 2025. [40]