In-Context Learning — التعلم في السياق
التعلم في السياق (بالإنجليزية: In-Context Learning، أو ICL) هو قدرة أساسية لـنماذج اللغة الكبيرة (LLM) على تعلم مهام جديدة «بسرعة»، وذلك باستخدام الأمثلة (demonstrations) المقدمة ضمن سياق (مُوجِّه) الاستعلام فقط. الميزة الرئيسية هي أن عملية التكيف هذه تحدث دون تحديث أوزان (معلمات) النموذج، أي دون الحاجة إلى الضبط الدقيق التقليدي (fine-tuning)[1][2].
تسمح هذه الآلية للنماذج بإظهار مرونة مذهلة في حل المهام التي لم تُدرَّب عليها خصيصًا. وأصبح التعلم في السياق (ICL) أحد الإنجازات الرئيسية التي جعلت نماذج اللغة الكبيرة قوية ومتعددة الاستخدامات إلى هذا الحد[3].
آليات العمل
لا يزال الفهم الدقيق لكيفية عمل التعلم في السياق (ICL) مجالًا نشطًا للبحث، ولكن توجد عدة نظريات رائدة تشرح هذه الظاهرة.
المحوّل كمُحسِّن فائق (Meta-optimizer)
تقول إحدى النظريات الشائعة أن معمارية المحولات (Transformer) تتعلم أثناء التدريب المسبق كيفية تنفيذ خوارزميات التعلم ضمن تمريراتها الأمامية (forward passes). وعندما يتلقى النموذج مُوجِّهًا يحتوي على أمثلة، فإنه ينفذ ضمنيًا نوعًا من التحسين لحل المهمة المعروضة، وذلك عن طريق تعديل حالاته الداخلية (التنشيطات)، وليس الأوزان[4].
الاستدلال البايزي
تنظر نظرية أخرى إلى التعلم في السياق (ICL) كشكل من أشكال الاستدلال البايزي (Bayesian inference). يمتلك النموذج، الذي تم تدريبه مسبقًا على كميات هائلة من البيانات، فهمًا مسبقًا (a priori) لمجموعة واسعة من المفاهيم. وتعمل الأمثلة الموجودة في السياق كأدلة تسمح للنموذج بتحديد توزيعه الاحتمالي اللاحق (a posteriori) للمفاهيم الكامنة. بعبارة أخرى، تساعد الأمثلة النموذج على «فهم» أي مهمة بالضبط من بين آلاف المهام التي يعرفها يجب عليه حلها في تلك اللحظة[5].
Types of In-Context Learning - أنواع التعلم في السياق
بناءً على عدد الأمثلة المقدمة، يُقسم التعلم في السياق (ICL) إلى ثلاثة أنواع رئيسية.
- التعلم بالقليل من الأمثلة (Few-shot Learning): هذا هو النهج الأكثر شيوعًا وتوازنًا. يتم تزويد النموذج بعدة أمثلة توضيحية (عادةً من 2 إلى 10).
مثال (تصنيف المشاعر):
النص: "يا له من يوم جميل!" المشاعر: إيجابية النص: "أكره الوقوف في الازدحام المروري." المشاعر: سلبية النص: "كان هذا الفيلم متوسطًا إلى حد ما." المشاعر:
الاستجابة المتوقعة:
محايدة
- التعلم بمثال واحد (One-shot Learning): يُعطى النموذج مثالًا واحدًا فقط. غالبًا ما يكون هذا كافيًا لتحديد تنسيق الإجابة وتحسين الأداء بشكل كبير مقارنةً بنهج التعلم بدون أمثلة.
- التعلم بدون أمثلة (Zero-shot Learning): لا يتم تزويد النموذج بأي أمثلة، بل فقط بتعليمات أو وصف للمهمة. في هذه الحالة، يعتمد النموذج كليًا على المعرفة التي اكتسبها أثناء التدريب المسبق.
التطبيقات العملية
يتيح التطبيق الصحيح للتعلم في السياق (ICL) حل مجموعة واسعة من المهام دون الحاجة إلى عمليات تطوير وضبط دقيق مكلفة.
- للمهام الإبداعية والأسلوبية (مثل توليد الشيفرة البرمجية بأسلوب معين، أو كتابة نص بأسلوب مؤلف محدد):
- يُوصى باستخدام التعلم بالقليل من الأمثلة (Few-shot Learning).
- تساعد الأمثلة النموذج على فهم الأسلوب والتنسيق والهيكل المطلوب للإخراج.
- للمهام البسيطة ذات التعليمات الواضحة (مثل الترجمة، التلخيص، الإجابة على الأسئلة البسيطة):
- غالبًا ما يكون التعلم بدون أمثلة (Zero-shot Learning) كافيًا.
- تتعامل النماذج الحديثة مع هذه المهام بشكل جيد إذا كانت جزءًا من تدريبها المسبق.
- للمهام التي يكون فيها تنسيق الإخراج مهمًا (مثل توليد JSON، استخراج الكيانات):
- يُوصى باستخدام التعلم بمثال واحد (One-shot) أو التعلم بالقليل من الأمثلة (Few-shot Learning).
- يمكن لمثال واحد فقط أن يحدد بوضوح الهيكل المطلوب للإجابة، مما يمنع أخطاء التنسيق.
المزايا والعيوب
| المزايا | العيوب |
|---|---|
|
|
المقارنة مع النماذج الأخرى
ICL vs. Fine-tuning - التعلم في السياق مقابل الضبط الدقيق
يُغيّر الضبط الدقيق (Fine-tuning) أوزان النموذج، مما «يغرس» فيه معارف جديدة. وهذا يجعل النموذج خبيرًا في مجال ضيق، ولكنه يقلل من مرونته العامة. في المقابل، لا يغير التعلم في السياق (ICL) الأوزان وهو أكثر مرونة، ولكنه قد يكون أقل أداءً في المهام المتخصصة التي تتطلب معرفة عميقة بالمجال.
ICL vs. RAG (Retrieval-Augmented Generation) - التعلم في السياق مقابل التوليد المعزز بالاسترجاع
كلا الأسلوبين يوسعان سياق النموذج، ولكن لأغراض مختلفة:
- ICL يستخدم الأمثلة ليعلم النموذج كيفية أداء المهمة (إظهار المهارة).
- RAG يستخدم المعلومات المسترجعة ليزود النموذج بالحقائق اللازمة للإجابة (توفير المعرفة).
عمليًا، غالبًا ما يتم الجمع بين التعلم في السياق (ICL) والتوليد المعزز بالاسترجاع (RAG) لتحقيق أفضل النتائج.
المراجع
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Dai, D. et al. (2022). Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. arXiv:2212.10559.
- Panwar, M.; Ahuja, K.; Goyal, N. (2024). In-Context Learning through the Bayesian Prism. arXiv:2306.04891.
- Müller, S. et al. (2021). Transformers Can Do Bayesian Inference. arXiv:2112.10510.
- Garg, S. et al. (2022). What Can Transformers Learn In-Context? A Case Study of Simple Function Classes. arXiv:2208.01066.
- Min, S. et al. (2022). Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?. arXiv:2202.12837.
- Wang, X. et al. (2023). Explaining and Finding Good Demonstrations for In-Context Learning. arXiv:2302.13971.
- Xie, S. et al. (2024). A Survey on In-Context Learning. arXiv:2301.00234.
- Yu, Z.; Ananiadou, S. (2024). How Do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads Are Two Towers for Metric Learning. arXiv:2402.02872.
- Wibisono, K. C.; Wang, Y. (2024). From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When. arXiv:2406.00131.
- Chan, J. K. et al. (2022). Data Distributional Properties Drive Emergent In-Context Learning in Transformers. arXiv:2205.05055.
- Hahn, M.; Goyal, N. (2023). A Theory of Emergent In-Context Learning as Implicit Structure Induction. arXiv:2303.07971.
هوامش
- ↑ What is In-Context Learning (ICL)? // Lakera.ai
- ↑ In-Context Learning (ICL) // Hopsworks.ai
- ↑ In-Context Learning, In Context // The Gradient
- ↑ Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers // arXiv, 2022.
- ↑ Understanding In-Context Learning // Stanford Human-Centered AI, 2023.