LMArena (Chatbot Arena) — ساحة النماذج الكبيرة

From Systems analysis wiki
Jump to navigation Jump to search

LMArena (Large Model Arena، والمعروفة سابقًا باسم Chatbot Arena) هي منصة ويب مفتوحة للتقييم الجماعي والمقارنة المعيارية للنماذج الكبيرة (LLM والنماذج متعددة الوسائط) بناءً على التفضيلات البشرية، من خلال مقارنات زوجية مجهولة الهوية ولوحات صدارة عامة[1][2].

انبثقت المنصة من مبادرة بحثية باسم LMSYS (جامعة كاليفورنيا في بيركلي/جامعة كارنيجي ميلون/جامعة كاليفورنيا في سان دييغو)[٤١]. وفي سبتمبر 2024، أُطلقت كموقع مستقل lmarena.ai[3]، ثم في مايو 2025، تأسست كشركة وجمعت تمويلاً تأسيسياً بقيمة 100 مليون دولار (من a16z وUC Investments وغيرهم) لتطوير بنيتها التحتية للتقييم المفتوح[4][5].

التاريخ

أُطلقت المنصة في مايو 2023 تحت اسم Chatbot Arena. في ربيع عام 2025، أعيد تسميتها رسميًا إلى LMArena (Large Model Arena) وتأسست كمنظمة مستقلة.

  • 3 مايو 2023 — إطلاق Chatbot Arena، وهي أول لوحة صدارة تعتمد على "المنازلات" (battles) مجهولة الهوية[6].
  • 2023 — إصدار مجموعات بيانات: 33 ألف حوار زوجي (يوليو) وLMSYS‑Chat‑1M (سبتمبر، مليون حوار حقيقي)[7][8].
  • 20 سبتمبر 2024 — "التخرج" (Graduation): الانتقال إلى نطاق مستقل هو lmarena.ai[3].
  • 2024–2025 — توسيع المنهجية والساحات (Arena‑Hard، Style/Sentiment Control، WebDev/RepoChat وغيرها)[9][10][11][12].
  • 27 أبريل 2025 — الوصول إلى إجمالي 3+ مليون صوت، و400+ نموذج عام، و300+ معاينة خاصة[13].
  • 21 مايو 2025 — إعلان LMArena عن تأسيس الشركة وجمع جولة تمويل تأسيسية بقيمة 100 مليون دولار[4][5].
  • 31 يوليو 2025 — إصدار مجموعة بيانات مفتوحة تضم 140 ألف حوار حديث من Text Arena[14].
  • 26–27 أغسطس 2025 — اختبار مجهول لنموذج Gemini 2.5 Flash Image تحت الاسم الرمزي "nano‑banana"؛ والذي تصدّر لاحقًا تصنيفات Text‑to‑Image/Image Edit[15][16].
  • 28 أغسطس 2025 — إضافة Microsoft MAI‑1‑preview إلى لوحة صدارة النصوص (انظر Changelog)[17].
  • الحالة الحالية: تشير علامة التبويب Text Arena إلى وجود 4,075,191 صوتًا (تم التحديث في 8 سبتمبر 2025)[18].

آلية التقييم

يقوم المستخدم بإدخال استعلام ويحصل على إجابتين من نموذجين مجهولين يتم اختيارهما عشوائيًا ("A" و "B")، ثم يصوت لصالح الإجابة الأفضل (أو يسجل تعادلاً أو عدم رضاه عن الإجابتين). يعتمد التصنيف على نموذج برادلي-تيري الإحصائي (انحدار لوجستي للتفضيلات الزوجية)، وهو قريب حدسيًا من نظام تصنيف إيلو (Elo)[1]. تنشر المنصة نتيجة Arena Score وفترات الثقة، كما تطبق تصحيحات على العينات (re‑weighting) للحفاظ على عدم التحيز عند أخذ العينات بشكل غير متساوٍ[19].

الشفافية والانفتاح. المسارات البرمجية (pipelines) الأصلية للتقييم والتصنيف متاحة بشكل مفتوح في مستودع FastChat[20]؛ كما يتم نشر أجزاء من البيانات الأولية بشكل دوري للتحقق والأبحاث (على سبيل المثال، إصدار 140 ألف حوار في يوليو 2025)[19][14]. وفقًا لصفحة الأسئلة الشائعة (FAQ) والتحذيرات الموجودة على الصفحة الرئيسية، قد يتم الكشف عن استعلامات المستخدمين لمقدمي النماذج ونشرها جزئيًا لأغراض بحثية — لذلك لا ينبغي إرسال بيانات حساسة[21][22].

قواعد الاختيار وأخذ العينات. تُدرج في لوحات الصدارة النماذج المتاحة للعموم (ذات الأوزان المفتوحة/API عام/خدمة عامة). لتحقيق استقرار التقييم، يتطلب الأمر عادةً ≥1000 صوت؛ ويجب أن تكون 20% على الأقل من المنازلات بين النماذج العامة فقط؛ يزداد احتمال أخذ العينات مع ارتفاع التصنيف وعدم اليقين، ويضمن الانحدار مع إعادة الترجيح عدم تحيز النتائج النهائية[19].

المقاييس الآلية والتحكم في الأسلوب. لتسريع التقييم وتقليل تأثيرات التفضيلات المتعلقة بـ "الأسلوب"، يتم استخدام تقنيات مساعدة: MT‑Bench (استخدام نموذج لغوي كبير كمُحكِّم)[23]، وArena‑Hard (توليد آلي للأسئلة الصعبة)[9]، بالإضافة إلى Style/Sentiment Control (نمذجة ومعالجة تأثير النبرة/المشاعر على التفضيلات)[10]. بالنسبة لـ Arena‑Hard‑Auto، تم الإبلاغ عن توافق عالٍ جدًا مع الأصوات البشرية الحية (يصل إلى ≈98.6% في ظروف خاضعة للرقابة)[24].

الساحات ومجالات التقييم

تطورت المنصة لتشمل مجموعة من "الساحات" (arenas) حسب أنواع المهام:

  • Text Arena — للحوارات/المهام العامة، وهي الجدول الرئيسي[18].
  • Vision Arena — للنماذج متعددة الوسائط "نص→صورة/فيديو/تحليل صور"[25].
  • Text‑to‑Image و Image Edit — لتوليد الصور وتعديلها (بما في ذلك حالة nano‑banana)[16][15].
  • Text‑/Image‑to‑Video — لتوليد الفيديو[26].
  • WebDev Arena — لبناء تطبيقات الويب من الأوصاف[11].
  • RepoChat Arena — لمهام هندسة الذكاء الاصطناعي المتعلقة بالشيفرة البرمجية/المستودعات[12].
  • Search Arena — للنماذج المتصلة بالبحث على الويب؛ أُطلقت أولاً في أبريل 2025 (legacy)، ثم نُقلت إلى الموقع الرئيسي، وهي مصحوبة بمجموعة بيانات ومنشور بحثي[27][28][29].
  • BiomedArena.AI — تقييم متخصص للمهام الطبية الحيوية (بشراكة مع DataTecnica)[30].

التطبيقات والتأثير

  • واجهة عرض صناعية. يقوم كبار الموردين (مثل OpenAI وAnthropic وGoogle وغيرهم) باختبار وعرض نماذجهم بانتظام على LMArena؛ وتصف وسائل الإعلام المتخصصة المنصة بأنها معيار مهم[5][31]. في منشور صناعي لمؤتمر NAACL‑2025، وُصف تقييم Elo الخاص بـ Chatbot Arena بأنه "المعيار الذهبي في الصناعة" (gold industry‑standard)[32].
  • الاختبار قبل الإصدار. تسمح سياسة المنصة بالمعاينات المجهولة للنماذج "غير المُصدرة" مع إخطار المجتمع، يليها نشر التقييمات العامة بعد الإصدار؛ ويتطلب الأمر ما لا يقل عن ≈1000 صوت لتحقيق الاستقرار[19].
  • حالات بارزة. في ربيع 2025، أثير نقاش حول نموذج مجهول باسم Llama‑4 Maverick‑03‑26‑Experimental (حادثة تتعلق بمقارنته مع الإصدارات العامة)، مما جذب اهتمامًا إعلاميًا واسعًا وأدى إلى تحديثات في القواعد/التواصل[33][34]. في أغسطس 2025، تم الكشف عن أن "nano‑banana" هو في الواقع نموذج Gemini 2.5 Flash Image، الذي احتل بعد ذلك مراكز متقدمة في الساحات البصرية[15][16].

القيود والانتقادات

على الرغم من حجمها وشعبيتها، فإن لهذه المقاربة قيودًا:

  • الذاتية وتأثيرات الأسلوب. تعتمد تفضيلات التصويت على نبرة/طريقة الإجابة؛ يقوم الفريق بتطبيق Style/Sentiment Control لفصل "الأسلوب" عن "المحتوى"[10].
  • عدم تمثيل الجمهور. الجمهور الأساسي النشط يتكون من هواة التكنولوجيا والمطورين؛ ولمعالجة هذا، يتم إنشاء ساحات متخصصة لسيناريوهات محددة (مثل Search وWebDev وBiomed وغيرها)[35].
  • القابلية للتلاعب والتحيزات. تظهر أبحاث عام 2025 أنه في غياب حماية قوية، يمكن استخدام استراتيجيات "تزوير الأصوات" بمئات أو آلاف الأصوات؛ ومع ذلك، أدى التعاون بين الباحثين وLMArena إلى تطبيق تدابير حماية (مثل CAPTCHA/تسجيل الدخول/الحماية من الروبوتات/كشف الحالات الشاذة) وزيادة "تكلفة الهجوم"[36][37][38].
  • نقد منهجي. يشير بحث بعنوان The Leaderboard Illusion (أبريل 2025) إلى وجود عوامل نظامية ومؤسسية يمكن أن تشوه مجال المنافسة؛ وقد نشرت LMArena ردًا مفصلاً وتحتفظ بسجل تغييرات changelog عام للمنهجية[39][40][17].

روابط خارجية

منشورات

  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
  • Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
  • Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
  • Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
  • Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
  • Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
  • Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
  • Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
  • Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.


المراجع

  1. 1.0 1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
  2. «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 июня 2025. [١]
  3. 3.0 3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 сентября 2024. [٢]
  4. 4.0 4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 мая 2025. [٣]
  5. 5.0 5.1 5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 мая 2025. [٤]
  6. «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 мая 2023. [٥]
  7. «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 июля 2023. [٦]
  8. Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [٧]
  9. 9.0 9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [٨]
  10. 10.0 10.1 10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 апреля 2025. [٩]
  11. 11.0 11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 марта 2025. [١٠]
  12. 12.0 12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 апреля 2025. [١١]
  13. «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 апреля 2025. [١٢]
  14. 14.0 14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 июля 2025. [١٣]
  15. 15.0 15.1 15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 августа 2025. [١٤]
  16. 16.0 16.1 16.2 Text‑to‑Image Arena. LMArena, обновлено 25 августа 2025. [١٥]
  17. 17.0 17.1 Leaderboard Changelog. LMArena Blog, записи августа 2025. [١٦]
  18. 18.0 18.1 Text Arena (English). LMArena. [١٧]
  19. 19.0 19.1 19.2 19.3 LMArena Leaderboard Policy. LMArena Blog, ред. 8 сентября 2025. [١٨]
  20. lm‑sys/FastChat (GitHub). [١٩]
  21. FAQ. LMArena. [٢٠]
  22. Главная страница LMArena (дисклеймер о возможной публикации данных и передачи провайдерам). [٢١]
  23. Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [٢٢]
  24. Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (таблицы согласованности). [٢٣]
  25. Vision Arena. LMArena, обновлено 2 сентября 2025. [٢٤]
  26. Text‑to‑Video и Image‑to‑Video Leaderboards. LMArena, август 2025. [٢٥] [٢٦]
  27. «Introducing the Search Arena». LMArena Blog, 14 апреля 2025. [٢٧]
  28. «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 июля 2025. [٢٨]
  29. Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [٢٩]
  30. «Introducing BiomedArena.AI». LMArena Blog, 19 августа 2025. [٣٠]
  31. Google. «Gemma 3…», 12 марта 2025 (ссылка на результаты LMArena). [٣١]
  32. Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [٣٢]
  33. «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 апреля 2025. [٣٣]
  34. Официальные разъяснения/посты LMArena в X по инциденту (апрель 2025). [٣٤]
  35. «Search Arena & What We’re Learning…». LMArena Blog, 23 июля 2025. [٣٥]
  36. Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [٣٦]
  37. Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [٣٧]
  38. «Hundreds of rigged votes can skew…». Fast Company, 6 февраля 2025. [٣٨]
  39. Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [٣٩]
  40. «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 мая 2025. [٤٠]