Elo ranking of language models — تصنيف ELO للنماذج

تصنيف ELO لنماذج اللغة هو طريقة لتقييم ومقارنة نماذج اللغة الكبيرة (LLM)، تعتمد على نظام تصنيف إيلو (Elo) المُكيَّف، والذي تم تطويره في الأصل للشطرنج. يستخدم هذا النهج مقارنات زوجية بين النماذج بناءً على التفضيلات البشرية لإنشاء تصنيف موحد يعكس الأداء النسبي للنماذج^[1].

على عكس مقاييس الأداء (benchmarks) التقليدية التي تقيس الأداء المطلق في مهام محددة، تحدد أنظمة ELO القدرات النسبية للنماذج بناءً على المقارنات المباشرة لإجاباتها من قبل مقيِّمين بشريين. المبدأ الأساسي هو أن المستخدمين يقارنون إجابات نموذجين مجهولين على نفس الموجه ويختارون الخيار الأفضل. بناءً على هذه التفضيلات، يتم حساب تصنيف كل نموذج، حيث يشير التصنيف الأعلى إلى التفوق في التقييمات البشرية^[2].

تاريخ التطوير

أصل نظام ELO

تم تطوير نظام تصنيف ELO على يد الفيزيائي المجري الأمريكي أرباد إيلو (Arpad Emrick Elo، 1903-1992) في الستينيات من القرن الماضي لتقييم مهارات لاعبي الشطرنج. إيلو، الذي كان أستاذًا في الفيزياء، أنشأ هذا النظام كتحسين لنظام هاركنيس (Harkness system) الذي كان موجودًا آنذاك، والذي كان يعاني من عيوب كبيرة في دقة التقييمات^[3].

1960: اعتمد اتحاد الشطرنج الأمريكي (USCF) نظام إيلو رسميًا.
1970: بدأ الاتحاد الدولي للشطرنج (FIDE) في استخدام النظام^[4].

التكييف لنماذج اللغة

بدأ تطبيق تصنيف ELO لتقييم نماذج اللغة الكبيرة (LLM) مع إطلاق منصة LMSYS Chatbot Arena في 3 مايو 2023. تم إنشاء المنصة من قبل منظمة LMSYS (Large Model Systems Organization)، وهي تعاون بحثي بين باحثين من UC Berkeley SkyLab وUC San Diego وجامعة كارنيجي ميلون^[5].

المنهجية

الأسس الرياضية

صيغة ELO الكلاسيكية

صيغة ELO الكلاسيكية لحساب الاحتمال المتوقع لفوز النموذج A على النموذج B هي: P(A > B) = 1 / (1 + 10^((R_B - R_A) / 400)) حيث R_A و R_B هما التصنيفان الحاليان للنموذجين.

يتم تحديث التصنيف بعد المقارنة باستخدام الصيغة التالية: R'_A = R_A + K × (S_A - E_A) حيث K هو معامل التطوير (K-factor)، وS_A هي النتيجة الفعلية (1 للفوز، 0.5 للتعادل، 0 للخسارة)، وE_A هي النتيجة المتوقعة^[4].

Bradley-Terry Model - نموذج برادلي-تيري

المنصات الحديثة، بما في ذلك LMSYS Chatbot Arena، انتقلت إلى استخدام نموذج برادلي-تيري، الذي يمثل نهجًا أكثر قوة من الناحية الإحصائية. يتم حساب احتمال تفضيل النموذج i على النموذج j على النحو التالي:

P(i > j) = e^(β_i) / (e^(β_i) + e^(β_j)) حيث β_i و β_j هما معاملات (تصنيفات) النماذج، والتي يتم تقديرها باستخدام طريقة الإمكان الأعظم (maximum likelihood estimation)^[2]. هذه الطريقة أكثر استقرارًا وتُظهر توافقًا أفضل مع التفضيلات البشرية^[6].

Evaluation Process in Chatbot Arena - عملية التقييم في Chatbot Arena

المقارنة المجهولة: يتفاعل المستخدمون مع نموذجين مجهولين بشكل متوازٍ.
التصويت: بعد الحصول على الإجابات، يختار المستخدمون الخيار المفضل لديهم.
الكشف عن الهوية: لا يتم عرض أسماء النماذج إلا بعد التصويت.
تحديث التصنيف: يتم تحديث التصنيفات بناءً على نتائج التصويت، وعادةً ما يتم ذلك من خلال معالجة دُفعية لزيادة الاستقرار^[2].

المزايا والعيوب

المزايا

البساطة والقابلية للتفسير: النظام سهل الفهم والتطبيق.
قابلية التوسع: يسمح بتقييم عدد كبير من النماذج دون الحاجة إلى إجراء مقارنات زوجية كاملة.
التوافق مع التفضيلات البشرية: يعكس التصنيف بشكل مباشر التفضيلات الحقيقية للمستخدمين، بدلاً من المقاييس المجردة.

العيوب والقيود

مشاكل الموثوقية: قد تظهر حسابات ELO الفردية تقلبًا كبيرًا.
انتهاك خاصية التعدي (Transitivity): لا يفي النظام دائمًا بشرط أن A>B و B>C يؤدي إلى A>C، وهو ما يمثل قيدًا أساسيًا.
الاعتماد على حجم العينة: للحصول على تصنيفات مستقرة، يتطلب الأمر عينة كبيرة (مئات وآلاف المقارنات)^[6].
التحيزات في التقييم: قد تكون النتائج متحيزة بسبب تفضيل المستخدمين للإجابات الأطول أو المنسقة بشكل أفضل، وكذلك بسبب الاختلافات الثقافية بين المقيِّمين.

الخلاصة

يمثل تصنيف ELO أداة مهمة في منظومة تقييم نماذج اللغة، حيث يوفر طريقة بديهية لمقارنتها بناءً على التفضيلات البشرية. على الرغم من نجاح منصات مثل LMSYS Chatbot Arena، إلا أن لهذه الطريقة قيودًا جوهرية، بما في ذلك مشاكل خاصية التعدي والموثوقية. يعد الانتقال من نظام ELO الكلاسيكي إلى نموذج برادلي-تيري تحسينًا مهمًا، ولكن من المرجح أن يكمن مستقبل تقييم نماذج اللغة الكبيرة في الجمع بين أساليب متعددة للحصول على صورة أكثر شمولاً لقدرات النماذج.

روابط خارجية

المراجع

Elo, A. E. (1978). The Rating of Chessplayers, Past and Present. Arco Publishing. archive.org.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Daynauth, R. et al. (2025). Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat. arXiv:2411.14483.
Liu, Y. et al. (2024). Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators. arXiv:2403.16950.
Chatzi, I.; Straitouri, E.; Thejaswi, S.; Gomez‑Rodriguez, M. (2024). Prediction‑Powered Ranking of Large Language Models. arXiv:2402.17826.
Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non‑Transitivity in LLM‑as‑a‑Judge. arXiv:2502.14074.
Liu, Z. et al. (2025). am‑ELO: A Stable Framework for Arena‑based LLM Evaluation. arXiv:2505.03475.
Tang, S.; Wang, Y.; Jin, C. (2025). Is Elo Rating Reliable? A Study Under Model Misspecification. arXiv:2502.10985.
Nair, A. et al. (2025). Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings. arXiv:2506.00178.
Ameli, S. et al. (2024). A Statistical Framework for Ranking LLM‑Based Chatbots. arXiv:2412.18407.
Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top LLM Rankings. arXiv:2508.11847.
Sun, H.; Shen, Y.; Ton, J.‑F. (2024). Rethinking Bradley‑Terry Models in Preference‑Based Reward Modeling: Foundations, Theory, and Alternatives. arXiv:2411.04991.
Glickman, M. E. (2025). Paired Comparison Models with Strength‑Dependent Ties and Order Effects. arXiv:2505.24783.
Glickman, M. E. (2025). Rating Competitors in Games with Strength‑Dependent Tie Probabilities. arXiv:2506.11354.
Hua, H.-F.; Dong, J.; Liu, Z. (2023). Rating of Players by Laplace Approximation and Dynamic Bradley–Terry Model. arXiv:2310.10386.

الملاحظات

↑ «Elo Rating for LLMs: A Deep Dive». Medium. [١]
↑ ^2.0 ^2.1 ^2.2 «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Org. [٢]
↑ «Elo rating system». В Wikipedia, The Free Encyclopedia. [٣]
↑ ^4.0 ^4.1 «How Does the Elo Rating System Work?». History Hit. [٤]
↑ «LMSYS Chatbot Arena: The Ultimate LLM Leaderboard». Originality.AI. [٥]
↑ ^6.0 ^6.1 Boubdir, N., et al. «Elo Uncovered: Robustness and Best Practices in Language Model Evaluation». arXiv:2310.09277. [٦]

[medium_elo_intro-1] «Elo Rating for LLMs: A Deep Dive». Medium. [١]

[lmsys_blog-2] 2.0 ^2.1 ^2.2 «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Org. [٢]

[wiki_elo-3] «Elo rating system». В Wikipedia, The Free Encyclopedia. [٣]

[history_hit_elo-4] 4.0 ^4.1 «How Does the Elo Rating System Work?». History Hit. [٤]

[originality_ai_lmsys-5] «LMSYS Chatbot Arena: The Ultimate LLM Leaderboard». Originality.AI. [٥]

[elo_uncovered_arxiv-6] 6.0 ^6.1 Boubdir, N., et al. «Elo Uncovered: Robustness and Best Practices in Language Model Evaluation». arXiv:2310.09277. [٦]

[1]

[2]

[3]

[4]

[5]

[6]

Elo ranking of language models — تصنيف ELO للنماذج

Contents

تاريخ التطوير

أصل نظام ELO

التكييف لنماذج اللغة

المنهجية

الأسس الرياضية

صيغة ELO الكلاسيكية

Bradley-Terry Model - نموذج برادلي-تيري

Evaluation Process in Chatbot Arena - عملية التقييم في Chatbot Arena

المزايا والعيوب

المزايا

العيوب والقيود

الخلاصة

روابط خارجية

المراجع

الملاحظات

Navigation menu

Elo ranking of language models — تصنيف ELO للنماذج

تاريخ التطوير

أصل نظام ELO

التكييف لنماذج اللغة

المنهجية

الأسس الرياضية

صيغة ELO الكلاسيكية

Bradley-Terry Model - نموذج برادلي-تيري

Evaluation Process in Chatbot Arena - عملية التقييم في Chatbot Arena

المزايا والعيوب

المزايا

العيوب والقيود

الخلاصة

روابط خارجية

المراجع

الملاحظات

Navigation menu

Search