Fine-tuning (deep learning) — الضبط الدقيق
الضبط الدقيق (Fine-tuning)، المعروف أيضًا باسم التوليف الدقيق، هو أسلوب من أساليب التعلم النقلي (transfer learning) في تعلم الآلة، يتم فيه تكييف معلمات (parameters) نموذج مُدرَّب مسبقًا (pre-trained model) لحل مهمة جديدة ومحددة. فبدلاً من تدريب النموذج من الصفر، وهو ما يتطلب كميات هائلة من البيانات والموارد الحاسوبية، يتيح الضبط الدقيق الاستفادة من المعرفة المشفرة مسبقًا في أوزان النموذج و"توليفها" لتلبية احتياجات معينة.
أصبح هذا النهج معيارًا واقعيًا (de facto) في مجال التعلم العميق، خاصة عند التعامل مع النماذج اللغوية الكبيرة (LLM) ونماذج الرؤية الحاسوبية.
المفهوم
يمكن تقسيم عملية الضبط الدقيق إلى مرحلتين أساسيتين:
1. التدريب المسبق (Pre-training): يتم تدريب النموذج (مثل BERT أو GPT) على مجموعة بيانات كبيرة جدًا وعامة (مثل محتوى الإنترنت بالكامل) باستخدام مهمة ذاتية الإشراف (self-supervised task) (على سبيل المثال، التنبؤ بالكلمة التالية). في هذه المرحلة، يتعلم النموذج الأنماط العامة، وبناء الجملة، ودلالات الألفاظ، والمعرفة العامة حول العالم.
2. الضبط الدقيق (Fine-tuning): يُستخدم النموذج المدرب مسبقًا كأساس، ويتم تعديل أوزانه بناءً على مجموعة بيانات صغيرة ومُعَلَّمة (labeled) خاصة بالمهمة المستهدفة.
تكمن الفكرة الرئيسية في أن المعرفة المكتسبة خلال مرحلة التدريب المسبق تكون عامة ويمكن نقلها بنجاح لحل العديد من المهام الأخرى الأكثر تخصصًا.
عملية الضبط الدقيق
تتضمن عملية الضبط الدقيق النموذجية الخطوات التالية:
1. اختيار نموذج مُدرَّب مسبقًا: يتم اختيار نموذج تتناسب قدراته الأساسية مع المهمة المستهدفة (على سبيل المثال، BERT لمهام فهم النص، أو GPT لمهام التوليد).
2. تكييف البنية (Architecture): يُضاف إلى النموذج المدرب مسبقًا طبقة جديدة "رئيسية" (head) خاصة بالمهمة المستهدفة. على سبيل المثال:
- لـتصنيف النصوص، تُضاف طبقة متصلة بالكامل (fully connected layer) بسيطة مع دالة softmax.
- لـالتعرف على الكيانات المسماة (NER)، يُضاف مصنِّف إلى مُخرَج كل توكن (token).
3. التدريب على مجموعة البيانات المستهدفة: يتم تدريب النموذج بأكمله (أو جزء منه) على مجموعة البيانات الجديدة المُعَلَّمة. في هذه المرحلة، تُحدَّث أوزان النموذج، بما في ذلك أوزان الطبقات المدربة مسبقًا، باستخدام الانحدار التدرجي (gradient descent) لتقليل دالة الخسارة (loss function) في المهمة الجديدة.
4. استخدام معدل تعلم أقل: عند إجراء الضبط الدقيق، يُستخدم عادةً معدل تعلم (learning rate) أقل بكثير مما كان عليه في التدريب المسبق. هذا ضروري لتجنب "تدمير" المعرفة المفيدة المشفرة بالفعل في أوزان النموذج، والاكتفاء بتعديلها بدقة.
أنواع الضبط الدقيق
الضبط الدقيق الكامل (Full Fine-tuning)
- المبدأ: تحديث جميع معلمات (parameters) النموذج المدرب مسبقًا بالإضافة إلى الطبقة "الرئيسية" الجديدة.
- المزايا: يمكن أن يحقق أفضل أداء ممكن، حيث يتم تكييف النموذج بأكمله مع المهمة الجديدة.
- العيوب: يتطلب موارد حاسوبية وذاكرة كبيرة، حيث يجب تخزين وتحديث التدرجات (gradients) لجميع المعلمات. يوجد خطر النسيان الكارثي (catastrophic forgetting)، حيث "ينسى" النموذج المعرفة العامة التي اكتسبها أثناء التدريب المسبق.
الضبط الدقيق الفعّال من حيث المعلمات (Parameter-Efficient Fine-Tuning, PEFT)
هي مجموعة من الأساليب التي تهدف إلى تقليل التكاليف الحاسوبية أثناء الضبط الدقيق. الفكرة الأساسية هي تجميد (freeze) معظم معلمات النموذج المدرب مسبقًا وتدريب عدد قليل فقط من المعلمات الجديدة أو المحددة.
- أمثلة على أساليب PEFT:
- المحولات (Adapters): يتم إدخال طبقات إضافية صغيرة تسمى "المحولات" في بنية المحول (Transformer)، ويتم تدريب هذه المحولات فقط.
- LoRA (Low-Rank Adaptation): بدلاً من تحديث مصفوفات الأوزان الكاملة، تقوم LoRA بتدريب تحديثات منخفضة الرتبة (low-rank) لها. هذا يسمح بتقليل عدد المعلمات القابلة للتدريب آلاف المرات.
- توليف الموجهات (Prompt Tuning): تُضاف متجهات (vectors) قابلة للتدريب تسمى "الموجهات" (prompts) إلى بيانات الإدخال، ويتم ضبطها لحل المهمة، بينما يظل النموذج نفسه مجمدًا.
- مزايا PEFT:
- الكفاءة: تقلل بشكل كبير من متطلبات الذاكرة والحوسبة.
- النمطية (Modularity): تتيح تكييف نموذج واحد مُدرَّب مسبقًا بسهولة لمهام متعددة، وذلك عن طريق تخزين مجموعات صغيرة فقط من الأوزان المعدلة لكل مهمة.
الضبط الدقيق الموجه بالتعليمات (Instruction Tuning)
هو نوع معين من الضبط الدقيق يهدف إلى تحسين قدرة النماذج اللغوية الكبيرة (LLM) على اتباع التعليمات المقدمة باللغة الطبيعية.
- مبدأ العمل: يتم ضبط النموذج بدقة على مجموعة بيانات تتكون من أزواج "تعليمة — المخرج المطلوب".
- الهدف: تحسين قدرة النموذج على التعميم (generalization) للمهام الجديدة التي لم يرها من قبل، والتي يمكن وصفها في شكل تعليمات. تُعد نماذج مثل InstructGPT و FLAN-T5 أمثلة بارزة على هذا النهج.
المراجع
- Howard, J.; Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. arXiv:1801.06146.
- Houlsby, N. et al. (2019). Parameter-Efficient Transfer Learning for NLP. arXiv:1902.00751.
- Pfeiffer, J. et al. (2020). AdapterFusion: Non-Destructive Task Composition for Transfer Learning. arXiv:2005.00247.
- Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Lester, B.; Al-Rfou, R.; Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv:2104.08691.
- Ben Zaken, A.; Goldberg, Y.; Ravfogel, S. (2022). BitFit: Simple Parameter-Efficient Fine-Tuning for Transformer-based Masked Language-Models. ACL 2022.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Han, Z. et al. (2024). Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey. arXiv:2403.14608.
- Bian, J. et al. (2025). A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning. arXiv:2504.21099.
- Li, X. et al. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques and Future Directions. Preprints.org.
انظر أيضًا
- Large language models
- BERT
- GPT