Contextual forgetting — النسيان السياقي

From Systems analysis wiki
Jump to navigation Jump to search

النسيان السياقي في نماذج اللغة الكبيرة هو ظاهرة متعددة الأوجه يفقد فيها نموذج اللغة الكبير (LLM) المعلومات التي قُدمت له سابقًا ضمن تفاعل واحد، أو يتجاهلها، أو يستخدمها بشكل غير فعال[1]. على عكس الذاكرة البشرية، لا تمتلك نماذج اللغة الكبيرة مخزنًا طويل الأمد للحالات، بل تعتمد فقط على نافذة السياق — وهي حجم محدود من النص (بالوحدات الرمزية "tokens") يمكن للنموذج معالجته في المرة الواحدة. تعمل هذه النافذة بمثابة ذاكرة قصيرة المدى أو ذاكرة عاملة للنموذج[2].

أشهر تجليات هذا القصور هي مشكلة «الضياع في المنتصف» (Lost in the Middle) — وهي ميل النماذج إلى معالجة المعلومات الموجودة في بداية ونهاية السياق الطويل بشكل أفضل من تلك الموجودة في المنتصف[2]. هذه الظاهرة ليست خللًا، بل هي خاصية أساسية تنبع من بنية نماذج المحولات (Transformers) ومبادئ تدريبها.

نوعان من النسيان: السياقي والكارثي

من المهم التمييز بين نوعين مختلفين جوهريًا من «النسيان» في نماذج اللغة الكبيرة: النسيان داخل السياق والنسيان الكارثي.

النسيان داخل السياق (Lost in the Middle)

يحدث هذا النوع من النسيان أثناء جلسة تفاعل واحدة (الاستدلال) مع نموذج مُدرّب مسبقًا. وهو مرتبط بقيود نافذة السياق. عندما يتجاوز حجم الحوار أو المستند حجم النافذة، «ينسى» النموذج أقدم الأجزاء لإفساح المجال للأجزاء الجديدة. وحتى ضمن النافذة نفسها، قد تُستخدم المعلومات الموجودة في منتصف السياق بكفاءة أقل. وهذا يمثل قصورًا في الذاكرة العاملة للنموذج[3]. في الكتابات العامة، يُطلق على هذه الظاهرة أيضًا اسم «متلازمة تدهور السياق» (Context Degradation Syndrome, CDS)[1].

النسيان الكارثي (model drift)

هذا النوع من النسيان، المعروف أيضًا باسم «انحراف النموذج» (model drift), يحدث أثناء عملية الضبط الدقيق (fine-tuning) للنموذج على بيانات جديدة. عندما يتم ضبط نموذج مُدرَّب مسبقًا على مجموعة ضخمة من المعارف العامة على مجموعة بيانات متخصصة (مثل النصوص الطبية)، تتغير أوزانه. قد يؤدي هذا إلى تدهور أو «محو» المعارف والمهارات المكتسبة سابقًا والتي لا تتعلق بالمهمة الجديدة[4].

الأسباب والآليات

النسيان السياقي هو نتيجة مباشرة لبنية نماذج المحولات وهندسة الفضاءات المتجهية.

Lost in the Middle - تأثير "الضياع في المنتصف"

أظهرت دراسة أجرتها جامعة ستانفورد في عام 2023 بعنوان «Lost in the Middle» بوضوح أن أداء نماذج اللغة الكبيرة في استرجاع المعلومات من سياق طويل يتبع منحنى على شكل حرف U[2]. تكون دقة الإجابات في أعلى مستوياتها عندما تكون المعلومات ذات الصلة في بداية السياق (تأثير الأسبقية) أو في نهايته (تأثير الحداثة)، وتنخفض بشكل كبير إذا كانت «مخبأة» في المنتصف. أسباب هذه الظاهرة:

  • آلية الانتباه: تولي بنية المحول بطبيعتها اهتمامًا غير متناسب للوحدات الرمزية الأولية (ما يسمى «مراسي الانتباه» أو attention sinks) للحفاظ على التماسك العام، وكذلك للسياق المحلي، مما يؤدي إلى إضعاف «التركيز» على المنتصف[5].
  • بيانات التدريب المسبق: غالبًا ما يتم تدريب النماذج على نصوص قصيرة نسبيًا، حيث نادرًا ما توجد المعلومات المهمة على بعد عشرات الآلاف من الوحدات الرمزية من البداية، مما يعيقها عن استخدام السياقات الطويلة جدًا بفعالية[6].

التجليات والعواقب

  • متلازمة تدهور السياق: خلال الحوارات الطويلة، يبدأ النموذج في «فقدان خيط المحادثة»، وتكرار الإجابات، ومناقضة الحقائق التي سبق تحديدها، وتقديم إجابات عامة وغامضة بشكل متزايد[1].
  • الفشل في المهام متعددة الخطوات: في المهام التي يتم فيها توضيح الشروط عبر عدة تبادلات حوارية، قد «يتشبث» النموذج بافتراض أولي خاطئ ويتجاهل التوضيحات اللاحقة، مما يؤدي إلى عدم قدرته تمامًا على حل المشكلة[7].
  • عدم موثوقية تحليل المستندات: عند تحليل التقارير الطويلة أو المستندات القانونية، قد يتجاهل نموذج اللغة الكبير الحقائق الرئيسية الموجودة في الأقسام الوسطى، مما يجعله أداة غير موثوقة لمثل هذه المهام.

استراتيجيات التخفيف والوقاية

يطبق الباحثون والمطورون عدة أساليب لمعالجة مشكلة النسيان السياقي.

زيادة نافذة السياق

النهج الأكثر مباشرة هو زيادة حجم نافذة السياق. قامت النماذج الحديثة مثل Claude 3 (200 ألف وحدة رمزية) وGemini 1.5 Pro (حتى 2 مليون وحدة رمزية) بتوسيع هذا الحد بشكل كبير[8][9]. ومع ذلك، تظهر الأبحاث أن مجرد زيادة حجم النافذة لا يضمن استخدامها الفعال، وأن مشكلة «الضياع في المنتصف» لا تزال قائمة[2].

هندسة الموجهات المتقدمة

يمكن أن يؤدي تنظيم الموجهات (prompts) بذكاء إلى تحسين الأداء بشكل كبير. تقترح شركة Anthropic الممارسات التالية[10]:

  • وضع المستندات في البداية: ضع النصوص الطويلة في بداية الموجه، قبل التعليمات والسؤال.
  • استخدام وسوم XML: قم بتغليف المستندات بوسوم `<document>` للفصل بينها بوضوح.
  • دعم الإجابات بالاقتباسات: أعطِ النموذج تعليمات لاستخراج الاقتباسات ذات الصلة أولاً، ثم صياغة الإجابة بناءً عليها.

Retrieval-Augmented Generation (RAG) - التوليد المعزز بالاسترجاع

يعتبر التوليد المعزز بالاسترجاع نهجًا مختلفًا جوهريًا، حيث لا يتم وضع جميع المعلومات في نافذة السياق، بل يتم إخراجها إلى نظام خارجي (مثل قاعدة بيانات متجهية) وتوفيرها عند الطلب.

  1. الاسترجاع (Retrieve): عند وصول استعلام، يبحث النظام عن المعلومات ذات الصلة في القاعدة الخارجية.
  2. التعزيز (Augment): تتم إضافة الأجزاء التي تم العثور عليها إلى الاستعلام الأصلي.
  3. التوليد (Generate): يقوم نموذج اللغة الكبير بتوليد الإجابة بناءً على السياق المقدم.

تسمح تقنية RAG بالعمل مع كميات غير محدودة تقريبًا من البيانات وتوفر الوصول إلى معلومات حديثة وموثوقة، مما يقلل من خطر الهلوسة ويعد الحل الأكثر موثوقية حتى الآن[11].

روابط خارجية

مراجع

  • Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. arXiv:2307.03172.
  • An, C. et al. (2024). Why Does the Effective Context Length of LLMs Fall Short?. arXiv:2410.18745.
  • Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
  • Yang, A. et al. (2024). Context Parallelism for Scalable Million-Token Inference. arXiv:2411.01783.
  • Chen, S. et al. (2023). Extending Context Window of Large Language Models via Positional Interpolation. arXiv:2306.15595.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Li, S. et al. (2023). Functional Interpolation for Relative Positions Improves Long Context Transformers. arXiv:2310.04418.
  • Dong, Z. et al. (2024). Exploring Context Window of Large Language Models via Decomposed Positional Vectors. arXiv:2405.18009.
  • Laban, P. et al. (2025). LLMs Get Lost in Multi-Turn Conversation. arXiv:2505.06120.
  • Li, R. et al. (2024). Extending Context Window in Large Language Models with Segmented Base Adjustment for Rotary Position Embeddings. Applied Sciences, 14(7), 3076. DOI:10.3390/app14073076.
  • Yang, A. & Reizenstein, J. (2024). Exploring Context Window of LLMs via Decomposed Positional Vectors (NeurIPS Poster). NeurIPS 2024.


ملاحظات

  1. 1.0 1.1 1.2 Howard, James. «Context Degradation Syndrome: When Large Language Models Lose the Plot». jameshoward.us. [١]
  2. 2.0 2.1 2.2 2.3 Liu, Nelson F.; et al. «Lost in the Middle: How Language Models Use Long Contexts». arXiv. [٢]
  3. Liu, Nelson F.; et al. «Lost in the Middle: How Language Models Use Long Contexts». ACL Anthology. [٣]
  4. Greyling, Cobus. «Catastrophic Forgetting In LLMs». Medium. [٤]
  5. «Exploring Context Window of Large Language Models via Decomposed Positional Vectors». NeurIPS Proceedings. [٥]
  6. An, Chenxin; et al. «Why Does the Effective Context Length of LLMs Fall Short?». arXiv. [٦]
  7. «LLMs Get Lost In Multi-Turn Conversation». arXiv. [٧]
  8. «Introducing the next generation of Claude». Anthropic. [٨]
  9. «Google's Gemini 1.5 Pro - Revolutionizing AI with a 1M Token Context Window». Medium. [٩]
  10. «Long context prompting tips». Anthropic Documentation. [١٠]
  11. «What is Retrieval-Augmented Generation (RAG)?». Google Cloud. [١١]