YandexGPT (language model) — ياندكس جي بي تي
Jump to navigation
Jump to search
YandexGPT (Yet another GPT) - هي عائلة من نماذج اللغة الكبيرة التي طورتها شركة ياندكس وقُدّمت لأول مرة في مايو 2023.[1] تُستخدم نماذج YandexGPT في المساعد المدمج "أليسا"، وفي محرك البحث، وغيرها من الخدمات، كما أنها متاحة عبر واجهة برمجة التطبيقات (API) العامة لمنصة Yandex Cloud.[2]
YaLM‑100B (2022) - هو نموذج بحثي سابق يحتوي على 100 مليار مُعلَمَة ومفتوح المصدر؛ وقد كان بمثابة "إثبات للمفهوم"، ولكن YandexGPT تم تطويره بشكل منفصل للاستخدام التجاري.[3]
تاريخ الإصدارات
| التاريخ | الإصدار | الميزات الرئيسية |
|---|---|---|
| يونيو 2022 | YaLM‑100B | 100 مليار مُعلَمَة، 1.7 تيرابايت من البيانات؛ Apache 2.0.[3] |
| 17 مايو 2023 | YandexGPT 1.0 | التكامل مع "أليسا".[1] |
| 7 سبتمبر 2023 | YandexGPT 2 | تحسن في الجودة بنسبة +67% حسب الاختبارات الداخلية.[4] |
| 28 مارس 2024 | YandexGPT 3 Pro / Lite | مجموعة API جديدة للشركات.[5] |
| 24 أكتوبر 2024 | YandexGPT 4 Pro / Lite | سياق 32,000 توكن؛ استدلال متسلسل (chain‑of‑thought).[6] |
| 25 فبراير 2025 | YandexGPT 5 Pro | تكافؤ مع GPT‑4o في 64% من المهام.[7] |
| 31 مارس 2025 | YandexGPT 5 Lite Instruct | نموذج 8 مليار مُعلَمَة مفتوح المصدر؛ بصيغة Llama.[8] |
البنية والتدريب
- البنية الأساسية: محول (transformer)، مُحسَّن للغة الروسية.
- YandexGPT 5 Lite: متوافق مع Llama؛ التدريب المسبق (pre-training) ≈ 15 تريليون توكن، الضبط الدقيق اللاحق (fine-tuning) ≈ 320 مليار توكن.[8]
السياق والحدود
- الحد الأقصى للسياق في البنية هو 32,000 توكن (الإصداران 4 و5).[6]
- تحدد واجهة برمجة التطبيقات (API) العامة الطلب الواحد (prompt + completion) بـ 7,400 توكن.[9]
- الحد الأقصى لحجم **الاستجابة** هو 2,000 توكن وفقًا لقسم «Quotas and limits».[10]
النماذج الحالية (يونيو 2025)
| النموذج | المُعلَمَات | السياق | الرخصة | ملاحظات |
|---|---|---|---|---|
| YandexGPT 5 Pro | غ/م | 32,000 | مُحتكرة | الوصول عبر API و"أليسا برو".[7] |
| YandexGPT 5 Lite | 8 مليار | 32,000 | Yandex GPT‑Lite License | مفتوحة؛ متوافقة مع Llama.[8] |
| YaLM‑100B | 100 مليار | 2,048 | Apache 2.0 | المشروع الأصلي.[3] |
Benchmarks - مقاييس الأداء
- الاختبارات الداخلية: حقق 5 Pro تكافؤًا مع GPT‑4o في 64% من المهام؛ وتفوق على 4 Pro بنسبة 67%.[7]
- ru‑LLM Arena: يحتفظ YandexGPT بالصدارة في تصنيف ELO بين النماذج الناطقة باللغة الروسية.[11]
Fine-tuning - الضبط الدقيق
بالنسبة لـ 5 Lite، يتم دعم طريقة LoRA رسميًا؛ وقد نُشر مثال للتشغيل في بطاقة النموذج (model card).[8]
API modes - أوضاع واجهة برمجة التطبيقات
- المتزامن - استجابات سريعة (Lite).
- اللامتزامن - مهام تستهلك موارد كبيرة (Pro).[2]
التعددية الوسائطية
تظل عائلة YandexGPT نصية؛ ويتم تطوير الخدمات متعددة الوسائط («Neuro»، «YandexArt»، «Yandex Vision») بشكل منفصل.[6]
روابط خارجية
- YandexGPT في Yandex Cloud - صفحة الخدمة
- أوزان YandexGPT‑5 Lite على Hugging Face
- مستودع YaLM‑100B على GitHub
منشورات علمية
- Matkin, N. et al. (2024). Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies. arXiv:2407.19816.
- Tsanda, A.; Bruches, E. (2024). Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers. arXiv:2405.07886.
- Goloburda, M. et al. (2025). Qorǵau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts. arXiv:2502.13640.
- Togmanov, M. et al. (2025). KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan. arXiv:2502.12829.
- Noels, S. et al. (2025). What Large Language Models Do Not Talk About: An Empirical Study of Moderation and Censorship Practices. arXiv:2504.03803.
مراجع
- ↑ 1.0 1.1 «"ياندكس" تضيف نظير ChatGPT إلى "أليسا"». RBC. [١]
- ↑ 2.0 2.1 «Getting started with YandexGPT (Quickstart)». Yandex Cloud Docs. [٢]
- ↑ 3.0 3.1 3.2 «yandex/YaLM‑100B: Pretrained language model with 100B». GitHub. [٣]
- ↑ «كيف قررت "ياندكس" تحقيق الربح من نظيرها لـ ChatGPT». RBC. [٤]
- ↑ «"ياندكس" تقدم الجيل الثالث من شبكاتها العصبونية YandexGPT». RBC. [٥]
- ↑ 6.0 6.1 6.2 «عائلة نماذج YandexGPT 4 الأقوى». Habr. [٦]
- ↑ 7.0 7.1 7.2 «"ياندكس" تدمج YandexGPT 5 Pro في الدردشة مع "أليسا برو"». AdIndex. [٧]
- ↑ 8.0 8.1 8.2 8.3 «yandex/YandexGPT‑5‑Lite‑8B‑pretrain». Hugging Face. [٨]
- ↑ «ChatYandexGPT API Reference (max_tokens = 7400)». LangChain Docs. [٩]
- ↑ «Yandex Cloud service quotas and limits → Foundation Models». Yandex Cloud Docs. [١٠]
- ↑ «llmarena/llmarena — منصة روسية للتقييم الجماعي لنماذج اللغة الكبيرة». GitHub. [١١]