GPT (OpenAI) — المُحوّل التوليدي المُدرَّب مُسبقًا
GPT (اختصار لـ Generative Pre-trained Transformer أي المُحوّل التوليدي المُدرَّب مُسبقًا) هو عائلة من نماذج اللغة الكبيرة (LLM) التي طورتها شركة أوبن إيه آي. تُبنى نماذج GPT على بنية المحولات (Transformers) وتعتمد على نموذج التدريب التوليدي المسبق: في المرحلة الأولى، يتم تدريب النموذج على مجموعات ضخمة من النصوص دون تصنيف واضح، ثم يمكن إعادة تدريبه (fine-tuning) على مهام محددة.
التسمية
إن الاختصار GPT يرمز إلى Generative Pre-trained Transformer (المُحوّل التوليدي المُدرَّب مُسبقًا).
- توليدي (Generative): يعني أن النموذج قادر على إنشاء (توليد) محتوى جديد، مثل النصوص.
- مُدرَّب مُسبقًا (Pre-trained): يشير إلى أن النموذج يمر بمرحلة تدريب أولية مكثفة على مجموعة كبيرة من البيانات (مثل نصوص من الإنترنت). بعد هذا التدريب المسبق، يمكن غالبًا "إعادة تدريب" (fine-tuned) النموذج لأداء مهام أكثر تحديدًا.
- المُحوّل (Transformer): هو اسم بنية الشبكة العصبونية المحددة التي تُعد الابتكار الرئيسي الذي تقوم عليه نماذج GPT والعديد من نماذج الذكاء الاصطناعي الحديثة الأخرى.
الميزة الأساسية لـ GPT هي أن التدريب يحدث بشكل ذاتي الانحدار (autoregressive) — حيث يتنبأ النموذج بالرمز (token) التالي بناءً على السياق السابق. أي أن النموذج يتعلم كيفية تعظيم احتمالية الرمز التالي بمعرفة تسلسل الرموز السابقة. أثناء التدريب، يتم تقليل خطأ التنبؤ بالعنصر التالي، مما يسمح بتكوين نصوص تتميز بترابط وتماسك عاليين.
عملية توليد النص في GPT
يقوم نموذج GPT بتوليد النص بشكل متسلسل، رمزًا تلو الآخر، وفقًا للمخطط التكراري التالي:
- يتلقى تسلسلًا نصيًا أوليًا كمدخل (prompt, seed text).
- يحسب التوزيع الاحتمالي لجميع الرموز في القاموس للعنصر التالي في النص.
- يختار الرمز التالي:
- إما بأعلى احتمالية (الاختيار الجشع)،
- أو بطريقة أخذ العينات العشوائي (sampling)،
- أو باستخدام استراتيجيات ترشيح خاصة (top-k، top-p).
- يضيف الرمز المختار إلى التسلسل الحالي.
- يتم إدخال التسلسل المحدث مرة أخرى إلى النموذج للتنبؤ بالرمز التالي.
بنية المحول: معالجة النص
تتضمن عملية معالجة البيانات داخل المحول للتنبؤ بالرمز التالي عدة مراحل أساسية:
- الترميز (Tokenization). يتم تقسيم النص المُدخل إلى رموز (tokens) — وهي وحدات نصية صغيرة يمكن أن تكون كلمات، أو أجزاء من كلمات، أو علامات ترقيم. في نموذج GPT-3 على سبيل المثال، يضم القاموس حوالي 50,257 رمزًا.
- تضمين الرموز (Embeddings). يتم تحويل كل رمز إلى متجه ذي طول ثابت باستخدام مصفوفة تضمين (W_E). تشفر المتجهات معنى الرموز: حيث تقع الرموز المتقاربة دلاليًا بالقرب من بعضها البعض في الفضاء متعدد الأبعاد. في نموذج GPT-3، يبلغ بُعد التضمينات 12,288.
- المعالجة في طبقات المحول.
- وحدات الانتباه (Attention Blocks): يتفاعل كل رمز مع الرموز الأخرى في التسلسل. تسمح آلية الانتباه بأخذ السياق في الاعتبار وتفسير معاني الكلمات بشكل صحيح.
- طبقات التغذية الأمامية (Feed-Forward Layers): بعد آلية الانتباه، تتم معالجة كل رمز على حدة عبر شبكة عصبونية ثنائية الطبقات مع دالة تنشيط غير خطية.
- التحويل العكسي و Softmax. بعد جميع الطبقات، يتم تحويل المتجه المعالج مرة أخرى إلى فضاء الرموز باستخدام مصفوفة (W_U)، والتي غالبًا ما تكون منقولة لمصفوفة W_E. يتم تسوية متجه اللوغاريتمات الناتج باستخدام دالة Softmax للحصول على توزيع احتمالي لجميع الرموز.
- اختيار الرمز التالي (Sampling). يتم اختيار الرمز التالي بناءً على توزيع الاحتمالات. يتحكم معامل الحرارة (temperature) في عشوائية الاختيار: عند درجة حرارة 0، يتم اختيار الرمز الأكثر احتمالًا، بينما تزيد درجات الحرارة الأعلى من احتمالية اختيار الخيارات الأقل احتمالًا، مما يساهم في زيادة تنوع النص.
نماذج GPT
- GPT-1 (2018): أول نموذج في العائلة؛ حوالي 117 مليون معامل؛ تدريب على مرحلتين (تدريب مسبق + ضبط دقيق على مهام البرمجة اللغوية العصبية).
- GPT-2 (2019): 1.5 مليار معامل؛ تدريب على مجموعة بيانات WebText؛ أول نموذج قادر على توليد نصوص طويلة ومترابطة؛ تحسين جودة التوليد بدون أمثلة (zero-shot).
- GPT-3 (2020): 175 مليار معامل؛ تدريب واسع النطاق على مجموعة بيانات Common Crawl وBooks وWikipedia؛ تطوير كبير في قدرات التعلم بأمثلة قليلة (few-shot) وبدون أمثلة (zero-shot).
- GPT-3.5 (2022): نسخة وسيطة بين GPT-3 وGPT-4؛ تحسين في اتباع التعليمات بفضل التعلم المعزز من خلال ردود الفعل البشرية (RLHF)؛ زيادة نافذة السياق إلى 4096 رمزًا.
- GPT-4 (2023): نموذج متعدد الوسائط مع إدخال نصي ورسومي؛ توسيع ثابت للسياق إلى 8,192 و32,768 رمزًا؛ تحسن كبير في الدقة والاستقرار والمنطق.
- GPT-4 Turbo (2023): نسخة محسّنة من GPT-4؛ زيادة نافذة السياق إلى 128,000 رمز؛ زمن انتقال أقل وتكلفة تشغيل أقل.
- GPT-4o (2024): نموذج متعدد الوسائط من الجيل الجديد (نص، صورة، صوت)؛ سرعة ودقة استجابة عالية جدًا؛ نافذة سياق 128,000 رمز.
- GPT-4.5 (2025): نسخة بحثية مبنية على GPT-4 مع فهم محسّن لطلبات المستخدم، وتقليل عدد الأخطاء، وتوليد محسن للإجابات المعقدة؛ نافذة سياق 128,000 رمز.
- GPT-4.1 (2025): نسخة محسّنة من عائلة GPT-4 مع نافذة سياق تصل إلى 1,048,576 رمزًا ودعم لتعدد الوسائط.
GPT-1 - جي بي تي-1
تم تقديم أول نموذج، GPT-1، من قبل شركة OpenAI في عام 2018 في ورقة بحثية بعنوان "Improving Language Understanding by Generative Pre-Training" . احتوى النموذج على حوالي 117 مليون معامل وكان مبنيًا على بنية المحولات. تم تدريب GPT-1 على مرحلتين: مرحلة التدريب التوليدي المسبق غير الموجه (pre-training)، تليها مرحلة الضبط الدقيق الموجه (fine-tuning).
في مرحلة التدريب المسبق، تم تدريب النموذج على مجموعة بيانات BookCorpus، التي تضم أكثر من 7,000 كتاب غير منشور من مختلف الأنواع. كانت السمة المميزة لهذه المجموعة هي وجود مقاطع نصية طويلة ومستمرة، وهو أمر بالغ الأهمية لتطوير قدرة النموذج على معالجة التبعيات النصية المعقدة والطويلة.
في مرحلة الضبط الدقيق، تم تكييف النموذج لحل مهام متخصصة في معالجة اللغة الطبيعية، بما في ذلك:
- الإجابة على الأسئلة (Question Answering, QA) — تكوين إجابة صحيحة بناءً على سياق نصي معين؛
- استنتاج التضمين النصي (Natural Language Inference, NLI) — تحديد العلاقة المنطقية بين نصين: التضمين، أو التناقض، أو الحياد؛
- تقييم التشابه الدلالي (Semantic Textual Similarity) — قياس درجة التقارب في المعنى بين تسلسلين نصيين.
بفضل هذا النهج، أظهر GPT-1 تفوقًا كبيرًا على النماذج السابقة في عدد من المعايير القياسية لمهام فهم النص.
أظهر تطوير GPT-1 عددًا من الإنجازات والاكتشافات الرئيسية في مجال معالجة اللغة الطبيعية (NLP):
- كفاءة التدريب التوليدي المسبق. تم تأكيد تجريبيًا أن التدريب المسبق على مجموعات كبيرة من النصوص غير المصنفة يسمح للنموذج باكتساب تمثيلات لغوية عالمية، صالحة للاستخدام لاحقًا في مهام تطبيقية متنوعة دون الحاجة إلى تغييرات بنيوية جوهرية.
- عالمية بنية المحولات. أتاح استخدام محول مفكك الشفرة متعدد الطبقات للنموذج معالجة التبعيات طويلة المدى في النص بنجاح، وهو ما كان صعبًا في السابق على النماذج القائمة على الشبكات العصبونية المتكررة.
- تقليل الاعتماد على تصنيف البيانات. أكد العمل أن التدريب المسبق واسع النطاق على البيانات غير المصنفة يمكن أن يقلل بشكل كبير من حجم البيانات المصنفة اللازمة لتحقيق جودة عالية في المهام المستهدفة.
- أساس للتطورات اللاحقة. وضعت نتائج GPT-1 الأسس المفاهيمية والتقنية للإصدارات اللاحقة من نماذج عائلة GPT (مثل GPT-2 وGPT-3 وغيرها).
GPT-2 - جي بي تي-2
تم تقديم نموذج GPT-2 من قبل شركة OpenAI في فبراير 2019. وقد تفوق بشكل كبير على سابقه من حيث الحجم: احتوت النسخة الكاملة من النموذج على حوالي 1.5 مليار معامل. على عكس GPT-1، الذي تم تدريبه على مجموعة بيانات BookCorpus (حوالي 5 جيجابايت)، تم تدريب GPT-2 على مجموعة بيانات تم تجميعها خصيصًا تُعرف باسم WebText بحجم حوالي 40 جيجابايت، وتتضمن بيانات نصية عالية الجودة من مصادر الإنترنت. أدت الزيادة في حجم النموذج وحجم بيانات التدريب إلى تحسين كبير في جودة توليد النصوص في GPT-2: حيث أظهر قدرة على إنشاء مقالات وقصص وحتى مقاطع متماسكة من النثر الفني.
استخدم GPT-2 بنية محول مفكك شفرة ذاتي الانحدار، مشابهة لـ GPT-1، دون تغييرات جوهرية. تألف النموذج من 48 طبقة من الانتباه الذاتي، وحجم حالة مخفية يبلغ 1600، وتضمن حوالي 1.5 مليار معامل. تم التدريب على مهمة التنبؤ بالرمز التالي بناءً على السياق السابق باستخدام آلية الانتباه المقنّع.
كان أحد الفروق الرئيسية لـ GPT-2 هو أنه أظهر لأول مرة كفاءة عالية في وضع التعلم بدون أمثلة (zero-shot learning) — أي القدرة على حل مهام جديدة دون الخضوع لضبط دقيق صريح على أمثلة لتلك المهام. تم تدريب النموذج على مجموعة كبيرة من النصوص العامة ولم يخضع لتدريب متخصص على بيانات مهام محددة. تم التقييم في وضع zero-shot، حيث كان النموذج يؤدي المهام بناءً على المعرفة المكتسبة أثناء التدريب المسبق فقط. في عدد من مهام نمذجة اللغة، حقق GPT-2 جودة تضاهي أو تتجاوز نتائج النماذج التي تم تدريبها خصيصًا على مجموعات بيانات متخصصة (مثل ويكيبيديا، والنصوص الإخبارية، والكتب).
GPT-3 - جي بي تي-3
تم تقديم نموذج GPT-3 من قبل شركة OpenAI في يونيو 2020. وقد كان خطوة تالية في تطوير المحولات التوليدية بعد GPT-2 وتميز بتوسيع نطاق البنية إلى 175 مليار معامل، مما جعله أكبر نموذج لغوي في ذلك الوقت.
بقيت بنية GPT-3 في جوهرها كما هي — محول مفكك شفرة ذاتي الانحدار متعدد الطبقات دون تغييرات جذرية. تم تحقيق التحسينات الرئيسية في الأداء من خلال زيادة عدد الطبقات، وعرض الطبقات المخفية، ونطاق التدريب. تم تدريب النموذج على مزيج من عدة مجموعات نصية كبيرة، بما في ذلك Common Crawl وWebText2 وBooks1 وBooks2 وويكيبيديا، بحجم إجمالي يبلغ حوالي 570 جيجابايت من البيانات.
كانت إحدى الميزات الرئيسية لـ GPT-3 هي قدرته على التعلم بأمثلة قليلة (few-shot learning) والتعلم بدون أمثلة (zero-shot learning): حيث كان بإمكان النموذج أداء مجموعة واسعة من مهام معالجة اللغة الطبيعية، بما في ذلك الترجمة، والتلخيص، والإجابة على الأسئلة، وكتابة المقالات، وحتى البرمجة، بناءً على أمثلة قليلة فقط في الاستعلام النصي أو بدون أي أمثلة على الإطلاق.
GPT-3.5 - جي بي تي-3.5
تم تقديم نموذج GPT-3.5 من قبل شركة OpenAI في أواخر عام 2022 كجزء من التطور التدريجي لعائلة GPT. وقد بني على أساس بنية محول مفكك شفرة ذاتي الانحدار واسع النطاق المستخدمة في GPT-3، مع تحسينات في جودة توليد النص، ومعالجة السياق، والقدرة على اتباع التعليمات المعقدة. لم يتم الكشف رسميًا عن العدد الدقيق لمعاملات GPT-3.5، ولكن يُعتقد أنه مشابه لمعاملات نماذج GPT-3.
تضمن تدريب GPT-3.5 استخدامًا موسعًا لأساليب التعلم المعزز من خلال ردود الفعل البشرية (Reinforcement Learning from Human Feedback, RLHF)، مما ساهم في زيادة ملاءمة الإجابات التي يقدمها. تم تدريب النموذج على مجموعات نصية موسعة، بما في ذلك Common Crawl وBooks وWebText ومصادر أخرى عالية الجودة. ومن السمات المميزة لـ GPT-3.5 زيادة نافذة السياق القصوى إلى 4096 رمزًا في الإصدارات الشائعة (مثل gpt-3.5-turbo)، مما سمح بمعالجة حوارات أطول وتعليمات أكثر تعقيدًا.
عمليًا، تم تكييف GPT-3.5 لحل مجموعة واسعة من مهام معالجة اللغة الطبيعية، مثل:
- توليد نصوص مترابطة ومنطقية؛
- الإجابة على الأسئلة (QA) وفهم السياق؛
- اتباع تعليمات متعددة الخطوات؛
- تحسين الحفاظ على السياق طويل المدى في الحوارات.
بناءً على GPT-3.5، تم إصدار عدة إصدارات رئيسية مخصصة لأغراض مختلفة:
- text-davinci-002 — أول نموذج متاح للعامة يعتمد على GPT-3.5، مُحسّن للتوليد واتباع التعليمات.
- text-davinci-003 — نسخة محسّنة مع قدرة أكبر على التفكير وتوليد نصوص معقدة.
- gpt-3.5-turbo — النسخة الأكثر كفاءة واقتصادية من GPT-3.5، والتي استخدمت في خدمة ChatGPT منذ أواخر عام 2022.
GPT-4 - جي بي تي-4
تم تقديم نموذج GPT-4 من قبل شركة OpenAI في 14 مارس 2023 في ورقة بحثية بعنوان "GPT-4 Technical Report". وقد كان مرحلة تالية في تطوير عائلة نماذج اللغة، حيث قدم تحسينات كبيرة في مجال فهم النص، وتوليد إجابات ذات معنى وإبداعية، بالإضافة إلى معالجة البيانات متعددة الوسائط. لم يتم الكشف رسميًا عن العدد الدقيق للمعاملات والتفاصيل البنيوية للنموذج، ولكن من المتعارف عليه أن GPT-4 يتفوق بشكل كبير على GPT-3.5 من حيث الحجم والتعقيد. استند تدريب GPT-4 على مجموعات نصية ومتعددة الوسائط واسعة النطاق، تغطي البيانات النصية والصور وأنواع أخرى من المعلومات. استخدم النموذج أساليب RLHF (التعلم المعزز من خلال ردود الفعل البشرية). كانت إحدى الميزات الهامة للنموذج هي زيادة نافذة السياق: ما يصل إلى 8,192 رمزًا في النسخة الأساسية وما يصل إلى 32,768 رمزًا في النسخة الموسعة (GPT-4 Turbo)، مما سمح بالتعامل مع النصوص الطويلة والحوارات المعقدة.
تم تدريب GPT-4 على مزيج من المجموعات النصية والمتعددة الوسائط واسعة النطاق. شمل الجزء النصي بيانات عالية الجودة تم اختيارها بعناية من الإنترنت والكتب والمقالات ومستودعات الأكواد. بالنسبة للنسخة متعددة الوسائط، تم استخدام مجموعات بيانات متخصصة من الصور مع أوصافها النصية المقابلة.
تم التدريب على عدة مراحل:
- تدريب مسبق واسع النطاق غير موجه على النصوص والصور،
- ضبط دقيق موجه (supervised fine-tuning) على مهام متخصصة،
- مرحلة نهائية من التعلم المعزز من خلال ردود الفعل البشرية (RLHF) لزيادة الموثوقية والأمان وجودة تفسير التعليمات.
لتحسين عملية التدريب، تم تطبيق تقنيات التدريب الموزع باستخدام آلاف وحدات معالجة الرسومات (GPU) ومحسِّنات متخصصة قادرة على تثبيت تدريب النماذج الكبيرة جدًا ذات البنية العميقة. تم إيلاء اهتمام خاص لتقليل تكرار الأخطاء، وتحسين مقاومة النماذج لـ "الهلوسات"، وزيادة استقرار التوليد مع التسلسلات المدخلة الطويلة.
بناءً على GPT-4، تم إصدار عدة إصدارات رئيسية:
- GPT-4 (مارس 2023): نسخة أساسية مع دعم لإدخال النصوص والرسوميات؛ نافذة سياق 8,192 رمزًا (نسخة موسعة — 32,768 رمزًا).
- GPT-4 Turbo (نوفمبر 2023): تعديل محسن لـ GPT-4 مع نافذة سياق موسعة تصل إلى 128,000 رمز؛ انخفاض تكاليف الحوسبة وتوليد أسرع؛ دعم لأوضاع استدعاء الدوال (function calling) وإخراج JSON.
- GPT-4o (مايو 2024): نسخة متعددة الوسائط من الجيل الجديد مع إمكانية معالجة النصوص والصور والصوت؛ تحسين سرعة الاستجابة وجودة التفاعل؛ نافذة سياق 128,000 رمز.
- GPT-4.5 (فبراير 2025): نسخة بحثية مع توليد محسن للنصوص المعقدة، ودقة متزايدة في تنفيذ التعليمات، ومستوى منخفض من الهلوسات؛ نافذة سياق 128,000 رمز.
- GPT-4.1 (أبريل 2025): نسخة مستقرة مع توسيع جذري للسياق يصل إلى 1,048,576 رمزًا؛ تحسين الكفاءة في مهام البرمجة، والعمل مع النصوص الطويلة، وتعدد الوسائط.
GPT-5 - جي بي تي-5
في 7 أغسطس 2025، قدمت OpenAI نموذج GPT-5 باعتباره النموذج "الأذكى والأسرع والأكثر فائدة"، مع وضع تفكير مدمج ("thinking") وتركيز على السيناريوهات الواقعية — الكتابة، والبرمجة، والصحة، والفهم متعدد الوسائط. أصبح GPT-5 هو النموذج الافتراضي في ChatGPT لجميع المستخدمين المسجلين.[1]
GPT-5 هو نظام موحد يتكون من مكونين رئيسيين: استجابة سريعة واقتصادية للاستفسارات اليومية (gpt‑5‑main) وتفكير معمق للمهام المعقدة (gpt‑5‑thinking). يقوم موجه (router) باختيار الوضع المناسب في الوقت الفعلي بناءً على نوع الحوار، والتعقيد، والحاجة إلى أدوات، والتلميحات الصريحة من المستخدم (مثل “think hard about this”). تتوفر في ChatGPT أيضًا خيارات "mini/pro"؛ وتوضح خريطة النظام تطابق أسماء عائلات GPT-4/o مع خيارات GPT-5.
تتوفر في واجهة برمجة التطبيقات (API) ثلاثة أحجام: gpt-5، وgpt-5‑mini، وgpt-5‑nano (جميعها تدعم النص + الصور). الحد الأقصى للسياق الإجمالي هو 400 ألف رمز (حتى ≈272 ألف للمدخلات وما يصل إلى 128 ألف للتفكير + المخرجات)، وهو ثابت لجميع أفراد عائلة GPT-5 في واجهة برمجة التطبيقات. تذكر الصفحة العامة نفس المقياس وبطاقات الأسعار.
وفقًا لعمليات البحث على الويب ومجموعات البيانات الواقعية المفتوحة، يقلل GPT-5 بشكل كبير من الهلوسات: أخطاء أقل بنحو 45% مقارنة بـ GPT-4o، وأقل بنسبة ~80% مقارنة بـ OpenAI o3 في وضع "thinking". كما لوحظ انخفاض في ميله إلى "الخداع" في الاختبارات التي تتضمن مهام مستحيلة.
| الجيل | سنة الإصدار | عدد المعاملات | حجم مجموعة النصوص | الميزات الرئيسية |
|---|---|---|---|---|
| GPT-1 | 2018 | ≈117 مليون | ≈5 جيجابايت (BooksCorpus) | تدريب توليدي مسبق على مجموعات كبيرة، تدريب على مرحلتين (pretraining + fine-tuning) |
| GPT-2 | 2019 | 1.5 مليار | ≈40 جيجابايت (WebText) | تحسين توليد النص؛ نشر جزئي للنموذج |
| GPT-3 | 2020 | 175 مليار | ≈570 جيجابايت (Common Crawl, WebText2 وغيرها) | تعلم واسع النطاق في السياق (in-context learning)؛ إمكانية التعلم بأمثلة قليلة (few-shot) وبدون أمثلة (zero-shot) دون ضبط دقيق |
| GPT-3.5 | 2022 | ~6–175 مليار (إصدارات مختلفة) | >570 جيجابايت + ضبط إضافي بالتعليمات | استقرار محسن؛ تدريب على اتباع التعليمات؛ أساس ChatGPT |
| GPT-4 | 2023 | غير معلن (تقديرات: +500 مليار) | غير معلن (يُعتقد أنه عدة تريليونات من الرموز) | تعدد الوسائط (نص + صور)؛ دقة أعلى؛ مقاومة للهلوسات |
| GPT-4 Turbo | 2023 | غير معلن | يعتمد على تدريب GPT-4 | زيادة السياق إلى 128,000 رمز؛ تحسين سرعة وتكلفة التوليد |
| GPT-4o | 2024 | غير معلن | تدريب على بيانات متعددة الوسائط | معالجة متعددة الوسائط للنص والصور والصوت؛ سرعة استجابة عالية |
| GPT-4.5 | 2025 | غير معلن | مجموعات نصية ومتعددة الوسائط موسعة | تحسين تنفيذ التعليمات؛ تقليل تكرار الأخطاء؛ إصدار بحثي |
| GPT-4.1 | 2025 | غير معلن | مجموعات بيانات محدثة؛ تحسين الجودة | سياق يصل إلى 1,048,576 رمزًا؛ زيادة الأداء والدقة؛ تعدد الوسائط |
| النموذج | سنة الإصدار | عدد المعاملات | عدد الطبقات | حجم الحالة المخفية | عدد رؤوس الانتباه | نافذة السياق | حجم مجموعة التدريب |
|---|---|---|---|---|---|---|---|
| GPT-1 | 2018 | ≈117 مليون | 12 | 768 | 12 | 512 رمزًا | ≈5 جيجابايت (BooksCorpus) |
| GPT-2 | 2019 | 1.5 مليار | 48 | 1600 | 25 | 1024 رمزًا | ≈40 جيجابايت (WebText) |
| GPT-3 | 2020 | 175 مليار | 96 | 12,288 | 96 | 2048 رمزًا | ≈570 جيجابايت (Common Crawl + WebText2 + أخرى) |
| GPT-3.5 | 2022 | ~6–175 مليار (إصدارات مختلفة) | (تقدير ~96) | (تقدير: مشابه لـ GPT-3) | (غير معلن) | 4096 رمزًا | Common Crawl موسع + مجموعات بيانات إضافية |
| GPT-4 | 2023 | (غير معلن، تقدير: +500 مليار) | (غير معلن) | (غير معلن) | (غير معلن) | 8,192 رمزًا | يُعتقد أنه عدة تريليونات من الرموز |
| GPT-4 Turbo | 2023 | (غير معلن) | (غير معلن) | (غير معلن) | (غير معلن) | 32,768 رمزًا | نسخة محسّنة من GPT-4 لتقليل التكاليف |
| GPT-4o | 2024 | (غير معلن) | (غير معلن) | (غير معلن) | (غير معلن) | 128,000 رمز | تدريب على بيانات متعددة الوسائط (نص، صوت، صورة) |
| GPT-4.5 | 2025 | (غير معلن) | (غير معلن) | (غير معلن) | (غير معلن) | 128,000 رمز | تحسين تنفيذ التعليمات؛ تقليل تكرار الأخطاء |
| GPT-4.1 | 2025 | (غير معلن) | (غير معلن) | (غير معلن) | (غير معلن) | 1,048,576 رمزًا | تعدد الوسائط؛ تدريب موسع مع زيادة السياق |
روابط خارجية
- Better Language Models and Their Implications", OpenAI, 14 فبراير 2019
المراجع
مصادر للقراءة
- Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
- OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
- Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.