LMArena (Chatbot Arena) — 大規模モデルアリーナ

From Systems analysis wiki
Jump to navigation Jump to search

LMArenaLarge Model Arena、旧称Chatbot Arena)は、人間の嗜好に基づき大規模モデル(LLMおよびマルチモーダルモデル)をクラウドソーシングで評価・比較するためのオープンなウェブプラットフォームです。匿名のペアワイズ比較と公開リーダーボードを備えています[1][2]

本プラットフォームは、研究イニシアチブLMSYS(UC Berkeley/CMU/UC San Diego)[41]から発展し、2024年9月に独立サイトlmarena.aiとして「卒業」しました[3]。さらに2025年5月には法人化され、オープンな評価インフラの開発を目的として1億ドルのシード資金(a16z、UC Investmentsなどが参加)を調達しました[4][5]

歴史

プラットフォームは2023年5月にChatbot Arenaという名称でローンチされました。2025年春、プラットフォームは正式にLMArena(Large Model Arena)に改名され、独立した組織として設立されました。

  • 2023年5月3日 — Chatbot Arenaがローンチされ、匿名の「バトル」に基づく初のリーダーボードが公開される[6]
  • 2023年 — データセットのリリース:33Kのペアワイズ対話(7月)およびLMSYS‑Chat‑1M(9月、100万件の実対話)[7][8]
  • 2024年9月20日 — 「卒業(Graduation)」:独立ドメインlmarena.aiへ移行[3]
  • 2024年–2025年 — 方法論とアリーナの拡張(Arena‑Hard、Style/Sentiment Control、WebDev/RepoChatなど)[9][10][11][12]
  • 2025年4月27日 — 累計で300万以上の投票、400以上の公開モデル、300以上の非公開プレビューを達成[13]
  • 2025年5月21日 — LMArenaが法人化と1億ドルのシードラウンドを発表[4][5]
  • 2025年7月31日 — Text Arenaから最近の対話14万件のオープンデータセットをリリース[14]
  • 2025年8月26日–27日 — コードネーム「nano‑banana」でGemini 2.5 Flash Imageの匿名テストを実施。その後、同モデルがText‑to‑Image/Image Editランキングで首位を獲得[15][16]
  • 2025年8月28日 — テキストリーダーボードにMicrosoft MAI‑1‑previewを追加(Changelog参照)[17]
  • 現状Text Arenaタブには4,075,191票と表示されている(2025年9月8日更新)[18]

評価の仕組み

ユーザーはプロンプトを入力し、ランダムに選ばれた匿名の2つのモデル(「A」と「B」)から回答を受け取ります。その後、より良い回答に投票します(または、引き分けやどちらも不十分であることを示します)。ランキングは、イロレーティングに直感的に近い統計モデルであるブラッドリー・テリー・モデル(ペアワイズ嗜好に基づくロジスティック回帰)に基づいています[1]。プラットフォームはArena Scoreと信頼区間を公開し、不均一なサンプリング下でも不偏性を維持するためにサンプリング補正(re-weighting)を適用しています[19]

透明性とオープン性 評価とランキングの元のパイプラインは、リポジトリFastChatで公開されています[20]。検証や研究のために、生データの一部が定期的に公開されます(例:2025年7月の14万件の対話データリリース)[19][14]FAQおよびトップページの警告によると、ユーザーのプロンプトはモデルのプロバイダーに開示されたり、研究目的で一部公開されたりする可能性があるため、機密データを送信すべきではありません[21][22]

選定とサンプリングのルール リーダーボードには、一般に利用可能なモデル(公開ウェイト/公開API/公開サービス)が含まれます。評価を安定させるには通常1000票以上が必要で、バトルの少なくとも20%は公開モデル間でのみ行われます。サンプリング確率はレーティングと不確実性に応じて増加し、再重み付け回帰によって最終的な評価の不偏性が確保されます[19]

自動メトリクスとスタイル制御 評価の迅速化と「スタイル」の嗜好による影響を低減するため、補助的な手法が用いられます:MT‑Bench(LLM-as-a-judge)[23]Arena‑Hard(難易度の高い質問の自動生成)[9]、そしてStyle/Sentiment Control(嗜好に対するトーンや感情の影響をモデル化し「除去」する手法)[10]Arena‑Hard‑Autoについては、実際の人間による投票と非常に高い一致率(管理された条件下で最大約98.6%)が報告されています[24]

アリーナと評価ドメイン

プラットフォームは、タスクの種類に応じた「アリーナ」の集合体へと発展しました:

  • Text Arena — 一般的な対話/タスク、メインのリーダーボード[18]
  • Vision Arena — マルチモーダルモデル(テキスト→画像/動画/画像分析)[25]
  • Text‑to‑ImageおよびImage Edit — 画像生成と編集(nano‑bananaのケースを含む)[16][15]
  • Text‑/Image‑to‑Video — 動画生成[26]
  • WebDev Arena — 記述からのウェブアプリケーション構築[11]
  • RepoChat Arena — コード/リポジトリに関するAIエンジニアリングのタスク[12]
  • Search Arena — ウェブ検索に接続されたモデル。当初は2025年4月に(レガシー版として)ローンチされ、その後メインサイトに移行。データセットと論文が公開されている[27][28][29]
  • BiomedArena.AI — 生物医学タスクに特化したドメイン固有の評価(DataTecnicaとの提携)[30]

応用と影響

  • 業界のショーケース 主要なベンダー(OpenAI、Anthropic、Googleなど)は、LMArenaでモデルを定期的にテスト・公開しており、業界メディアは本プラットフォームを重要な指標と位置付けています[5][31]。NAACL‑2025の業界向け論文では、Chatbot ArenaのElo評価は「業界のゴールドスタンダード(gold industry-standard)」と評されています[32]
  • プレリリーステスト ポリシーでは、未発表モデルの匿名プレビューが許可されており、コミュニティへの通知後、リリースされた際に公開評価が発表されます。安定化には最低約1000票が必要です[19]
  • 著名な出来事 2025年春、匿名のモデルLlama‑4 Maverick‑03‑26‑Experimentalが話題となり(公開バージョンとの比較を巡る出来事)、メディアの注目を広く集め、ルールやコミュニケーション方針の更新を促しました[33][34]。2025年8月、「nano-banana」がGemini 2.5 Flash Imageであることが明かされ、ビジュアルアリーナでトップの地位を獲得しました[15][16]

制限と批判

その規模と人気にもかかわらず、このアプローチにはいくつかの制限があります:

  • 主観性とスタイルの影響 投票者の嗜好は、回答のトーンやスタイルに依存します。チームは「スタイル」と「内容」を分離するため、Style/Sentiment Controlを導入しています[10]
  • オーディエンスの代表性の欠如 中核となるアクティブユーザーは、テクノロジー愛好家や開発者です。ドメイン固有のシナリオに対応するため、専門のアリーナ(Search、WebDev、Biomedなど)が作られています[35]
  • 操作やバイアスに対する脆弱性 2025年の研究によると、厳格な防御策がなければ、数百から数千票の規模で不正投票戦略が可能であることが示されています。これに対し、研究者とLMArenaの協力により、保護措置(CAPTCHA/ログイン/ボット対策/異常検出)が導入され、「攻撃コスト」は増加しました[36][37][38]
  • 方法論に関する批判 論文The Leaderboard Illusion(2025年4月)は、競争の場を歪める可能性のある体系的および制度的要因を指摘しています。LMArenaは詳細な反論を公開し、方法論に関する公開changelogを維持しています[39][40][17]

外部リンク

参考文献

  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
  • Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
  • Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
  • Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
  • Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
  • Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
  • Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
  • Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
  • Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.

脚注

  1. 1.0 1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
  2. «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025. [1]
  3. 3.0 3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024. [2]
  4. 4.0 4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 мая 2025. [3]
  5. 5.0 5.1 5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 мая 2025. [4]
  6. «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 мая 2023. [5]
  7. «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 июля 2023. [6]
  8. Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]
  9. 9.0 9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]
  10. 10.0 10.1 10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 апреля 2025. [9]
  11. 11.0 11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 марта 2025. [10]
  12. 12.0 12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 апреля 2025. [11]
  13. «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 апреля 2025. [12]
  14. 14.0 14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 июля 2025. [13]
  15. 15.0 15.1 15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 августа 2025. [14]
  16. 16.0 16.1 16.2 Text‑to‑Image Arena. LMArena, обновлено 25 августа 2025. [15]
  17. 17.0 17.1 Leaderboard Changelog. LMArena Blog, записи августа 2025. [16]
  18. 18.0 18.1 Text Arena (English). LMArena. [17]
  19. 19.0 19.1 19.2 19.3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [18]
  20. lm‑sys/FastChat (GitHub). [19]
  21. FAQ. LMArena. [20]
  22. Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [21]
  23. Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]
  24. Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [23]
  25. Vision Arena. LMArena, обновлено 2 сентября 2025. [24]
  26. Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [25] [26]
  27. «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [27]
  28. «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 июля 2025. [28]
  29. Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]
  30. «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [30]
  31. Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [31]
  32. Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]
  33. «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [33]
  34. Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [34]
  35. «Search Arena & What We’re Learning…». LMArena Blog, 23 июля 2025. [35]
  36. Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]
  37. Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]
  38. «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [38]
  39. Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]
  40. «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 мая 2025. [40]