LMArena (Chatbot Arena) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

LMArena (Large Model Arena, anteriormente conhecida como Chatbot Arena) é uma plataforma web aberta para avaliação via crowdsourcing e comparação de grandes modelos (LLMs e modelos multimodais) com base em preferências humanas, utilizando comparações anônimas em pares e placares de líderes (leaderboards) públicos[1][2].

A plataforma surgiu a partir da iniciativa de pesquisa LMSYS (UC Berkeley/CMU/UC San Diego) [41], "graduou-se" em setembro de 2024 para um site independente, lmarena.ai[3], e em maio de 2025 foi formalizada como uma empresa, levantando $100 milhões em financiamento semente (seed) da a16z, UC Investments, entre outros, para desenvolver sua infraestrutura de avaliação aberta[4][5].

História

A plataforma foi lançada em maio de 2023 com o nome Chatbot Arena. Na primavera de 2025, foi oficialmente renomeada para LMArena (Large Model Arena) e formalizada como uma organização independente.

  • 3 de maio de 2023 — Lançamento da Chatbot Arena, o primeiro placar de líderes baseado em "batalhas" anônimas[6].
  • 2023 — Lançamento de datasets: 33 mil diálogos em pares (julho) e o LMSYS‑Chat‑1M (setembro, 1 milhão de diálogos reais)[7][8].
  • 20 de setembro de 2024 — "Graduation": a plataforma migra para seu próprio domínio, lmarena.ai[3].
  • 2024–2025 — Expansão da metodologia e das arenas (Arena‑Hard, Style/Sentiment Control, WebDev/RepoChat, etc.)[9][10][11][12].
  • 27 de abril de 2025 — Atinge um total de mais de 3 milhões de votos, mais de 400 modelos públicos e mais de 300 prévias privadas (closed previews)[13].
  • 21 de maio de 2025 — LMArena anuncia sua constituição como empresa e uma rodada de financiamento semente de $100 milhões[4][5].
  • 31 de julho de 2025 — Lançamento de um conjunto de dados aberto com 140 mil diálogos recentes da Text Arena[14].
  • 26–27 de agosto de 2025 — Teste anônimo do Gemini 2.5 Flash Image sob o codinome "nano‑banana"; o modelo posteriormente lidera os rankings de Text‑to‑Image/Image Edit[15][16].
  • 28 de agosto de 2025 — Adição do Microsoft MAI‑1‑preview ao placar de líderes de texto (ver Changelog)[17].
  • Status: A aba Text Arena registra 4.075.191 votos (atualizado em 8 de setembro de 2025)[18].

Como funciona a avaliação

O usuário insere uma consulta (prompt) e recebe duas respostas de modelos anônimos selecionados aleatoriamente ("A" e "B"), votando em seguida na melhor resposta (ou registrando um empate/resposta insatisfatória). A classificação é baseada no modelo estatístico de Bradley-Terry (regressão logística sobre preferências pareadas), intuitivamente similar ao sistema Elo[1]. A plataforma publica o Arena Score e os intervalos de confiança, além de aplicar correções de amostragem (re-weighting) para manter a imparcialidade em caso de amostragem não uniforme[19].

Transparência e abertura. Os pipelines de avaliação e classificação são de código aberto no repositório FastChat[20]; partes dos dados brutos são publicadas periodicamente para verificação e pesquisa (por exemplo, o lançamento de 140 mil diálogos em julho de 2025)[19][14]. De acordo com o FAQ e os avisos na página principal, as consultas dos usuários podem ser divulgadas aos provedores dos modelos e parcialmente publicadas para fins de pesquisa — dados sensíveis não devem ser enviados[21][22].

Regras de seleção e amostragem. Os placares de líderes incluem modelos de acesso geral (pesos abertos/API pública/serviço público). Para estabilizar a avaliação, geralmente são necessários ≥1000 votos; pelo menos 20% das batalhas ocorrem apenas entre modelos públicos; a probabilidade de amostragem aumenta com a classificação e a incerteza, e a regressão com reponderação garante a imparcialidade das pontuações finais[19].

Métricas automáticas e controle de estilo. Para acelerar a avaliação e reduzir os efeitos de preferências de "estilo", são aplicadas metodologias auxiliares: MT‑Bench (LLM-como-juiz)[23], Arena‑Hard (geração automática de perguntas complexas)[9], bem como Style/Sentiment Control (modelagem e "correção" do efeito do tom/emoções nas preferências)[10]. Para o Arena‑Hard‑Auto, foi relatada uma concordância muito alta com votos humanos "ao vivo" (até ≈98,6% em condições controladas)[24].

Arenas e domínios de avaliação

A plataforma evoluiu para um conjunto de "arenas" por tipo de tarefa:

  • Text Arena — diálogos/tarefas gerais, o placar principal[18].
  • Vision Arena — modelos multimodais "texto→imagem/vídeo/análise de imagem"[25].
  • Text‑to‑Image e Image Edit — geração e edição de imagens (incluindo o caso nano‑banana)[16][15].
  • Text‑/Image‑to‑Video — geração de vídeo[26].
  • WebDev Arena — construção de aplicações web a partir de descrições[11].
  • RepoChat Arena — tarefas de engenharia de IA sobre código/repositórios[12].
  • Search Arena — modelos com conexão à busca na web; lançada inicialmente em abril de 2025 (legado), depois movida para o site principal, acompanhada por um conjunto de dados e uma publicação[27][28][29].
  • BiomedArena.AI — avaliação específica de domínio para tarefas biomédicas (parceria com a DataTecnica)[30].

Aplicação e influência

  • Vitrine da indústria. Grandes fornecedores (OpenAI, Anthropic, Google, etc.) testam e demonstram regularmente seus modelos na LMArena; a mídia do setor descreve a plataforma como uma referência importante[5][31]. Em uma publicação industrial da NAACL‑2025, a avaliação Elo da Chatbot Arena foi chamada de "gold industry‑standard"[32].
  • Testes de pré-lançamento. A política permite prévias anônimas de modelos "não lançados", com notificação à comunidade e posterior publicação das avaliações públicas após o lançamento; um mínimo de ≈1000 votos é necessário para estabilização[19].
  • Episódios notáveis. Na primavera de 2025, o modelo anônimo Llama‑4 Maverick‑03‑26‑Experimental foi discutido (incidente em torno de sua comparação com versões públicas), o que atraiu ampla atenção da imprensa e provocou atualizações nas regras/comunicações[33][34]. Em agosto de 2025, o "nano‑banana" foi revelado como o Gemini 2.5 Flash Image e assumiu posições de liderança nas arenas visuais[15][16].

Limitações e críticas

Apesar de sua escala e popularidade, a abordagem possui limitações:

  • Subjetividade e efeitos de estilo. As preferências de voto dependem do tom/maneira da resposta; a equipe está implementando o Style/Sentiment Control para desacoplar "estilo" e "conteúdo"[10].
  • Não representatividade do público. O núcleo ativo é composto por entusiastas de tecnologia/desenvolvedores; para cenários de domínio específico, arenas especializadas são criadas (Search, WebDev, Biomed, etc.)[35].
  • Vulnerabilidade a manipulações e vieses. Pesquisas de 2025 mostram que, na ausência de proteções rigorosas, são possíveis estratégias para "inflar" os votos com centenas a milhares de votos; no entanto, a colaboração entre pesquisadores e a LMArena levou à implementação de medidas de proteção (CAPTCHA/login/proteção contra bots/detecção de anomalias) e ao aumento do "custo do ataque"[36][37][38].
  • Críticas metodológicas. O trabalho The Leaderboard Illusion (abril de 2025) aponta para fatores sistemáticos e institucionais que podem distorcer o campo competitivo; a LMArena publicou uma resposta detalhada e mantém um changelog público da metodologia[39][40][17].

Literatura

  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
  • Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
  • Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
  • Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
  • Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
  • Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
  • Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
  • Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
  • Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.


Referências

  1. 1.0 1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
  2. «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 de junho de 2025. [1]
  3. 3.0 3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 de setembro de 2024. [2]
  4. 4.0 4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 de maio de 2025. [3]
  5. 5.0 5.1 5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 de maio de 2025. [4]
  6. «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 de maio de 2023. [5]
  7. «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 de julho de 2023. [6]
  8. Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]
  9. 9.0 9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]
  10. 10.0 10.1 10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 de abril de 2025. [9]
  11. 11.0 11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 de março de 2025. [10]
  12. 12.0 12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 de abril de 2025. [11]
  13. «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 de abril de 2025. [12]
  14. 14.0 14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 de julho de 2025. [13]
  15. 15.0 15.1 15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 de agosto de 2025. [14]
  16. 16.0 16.1 16.2 Text‑to‑Image Arena. LMArena, atualizado em 25 de agosto de 2025. [15]
  17. 17.0 17.1 Leaderboard Changelog. LMArena Blog, registros de agosto de 2025. [16]
  18. 18.0 18.1 Text Arena (English). LMArena. [17]
  19. 19.0 19.1 19.2 19.3 LMArena Leaderboard Policy. LMArena Blog, ed. 8 de setembro de 2025. [18]
  20. lm‑sys/FastChat (GitHub). [19]
  21. FAQ. LMArena. [20]
  22. Página principal da LMArena (aviso sobre a possível publicação de dados e compartilhamento com provedores). [21]
  23. Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]
  24. Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (tabelas de concordância). [23]
  25. Vision Arena. LMArena, atualizado em 2 de setembro de 2025. [24]
  26. Text‑to‑Video e Image‑to‑Video Leaderboards. LMArena, agosto de 2025. [25] [26]
  27. «Introducing the Search Arena». LMArena Blog, 14 de abril de 2025. [27]
  28. «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 de julho de 2025. [28]
  29. Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]
  30. «Introducing BiomedArena.AI». LMArena Blog, 19 de agosto de 2025. [30]
  31. Google. «Gemma 3…», 12 de março de 2025 (link para os resultados da LMArena). [31]
  32. Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]
  33. «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 de abril de 2025. [33]
  34. Esclarecimentos/posts oficiais da LMArena no X sobre o incidente (abril de 2025). [34]
  35. «Search Arena & What We’re Learning…». LMArena Blog, 23 de julho de 2025. [35]
  36. Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]
  37. Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]
  38. «Hundreds of rigged votes can skew…». Fast Company, 6 de fevereiro de 2025. [38]
  39. Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]
  40. «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 de maio de 2025. [40]