PEFT (Parameter-Efficient Fine-Tuning) — الضبط الدقيق الفعال للمعلمات
الضبط الدقيق الفعال للمعلمات (بالإنجليزية: Parameter-Efficient Fine-Tuning, PEFT) هو مجموعة من الأساليب لتكييف النماذج الكبيرة المدربة مسبقًا، مثل نماذج اللغة الكبيرة (LLM)، مع مهام محددة بأقل قدر من التكاليف الحاسوبية والموارد. على عكس الضبط الدقيق الكامل التقليدي (full fine-tuning)، الذي يتطلب تحديث جميع معلمات النموذج، تركز أساليب PEFT على تعديل جزء صغير فقط من الأوزان (أقل من 1-5% من العدد الإجمالي)، مع ترك الجزء الأكبر من النموذج دون تغيير ("مُجمّد")[1].
يتيح هذا النهج تقليل المتطلبات المتعلقة بالذاكرة ومساحة التخزين ووقت التدريب بشكل كبير، مما يجعل عملية تكييف النماذج التأسيسية القوية أكثر سهولة ومقاومة لمشكلة النسيان الكارثي[2].
مشاكل الضبط الدقيق الكامل
يواجه الضبط الدقيق الكامل التقليدي، الذي يتم فيه تحديث جميع معلمات النموذج، عددًا من المشاكل الحرجة التي كانت حافزًا لتطوير PEFT:
- التكاليف الحاسوبية المرتفعة: يتطلب تحديث مئات المليارات من المعلمات قدرات حاسوبية هائلة (وحدات معالجة رسومات/وحدات معالجة الموترات عالية الأداء) وحجمًا كبيرًا من ذاكرة الفيديو (VRAM)، مما يجعل العملية باهظة الثمن وغير متاحة للعديد من الباحثين.
- عدم كفاءة التخزين: لكل مهمة جديدة، يجب تخزين نسخة كاملة من النموذج بحجم عدة غيغابايت، مما يؤدي إلى نمو أسي في متطلبات مساحة التخزين.
- النسيان الكارثي (Catastrophic Forgetting): أثناء تكيّف النموذج مع البيانات الجديدة، فإنه "ينسى" المعرفة العامة التي اكتسبها خلال مرحلة التدريب المسبق، مما يقلل من أدائه في مهام أخرى.
- خطر فرط التخصيص (Overfitting): عند استخدام مجموعات بيانات صغيرة للضبط الدقيق، تميل النماذج التي تحتوي على مليارات المعلمات إلى "حفظ" أمثلة التدريب بدلاً من تعلم الأنماط العامة[2].
تصنيف أساليب PEFT
يمكن تصنيف أساليب PEFT بناءً على الطريقة التي تغير بها معلمات النموذج. هناك ثلاث فئات رئيسية: الإضافية (additive)، والانتقائية (selective)، وإعادة المعلمات (reparameterization)[3].
الأساليب الإضافية
تقوم هذه الأساليب بتجميد جميع أوزان النموذج الأصلية وإضافة وحدات جديدة صغيرة قابلة للتدريب.
- المحولات (Adapters): أقدم أسلوب إضافي. يتم إدخال وحدات شبكات عصبية صغيرة بهيكلية "عنق الزجاجة" بين طبقات المُحوّل (transformer). يتم تدريب أوزان هذه المحولات فقط[4].
- الأساليب القائمة على الموجهات الناعمة (Soft Prompts): بدلاً من تغيير أوزان النموذج، تضيف هذه الأساليب متجهات قابلة للتدريب ("رموز افتراضية") إلى بيانات الإدخال لتوجيه سلوك النموذج. الخيارات الرئيسية هي:
- Prompt Tuning: يضيف متجهات قابلة للتدريب فقط إلى تمثيلات الإدخال (input embeddings).
- Prefix-Tuning: يضيف بادئات متجهة قابلة للتدريب إلى الحالات الخفية في كل طبقة من آلية الانتباه، مما يوفر تحكمًا أدق[5].
- P-Tuning v2: تعميم لفكرة Prefix-Tuning، حيث يطبق الموجهات القابلة للتدريب على جميع طبقات النموذج، محققًا أداءً يضاهي الضبط الدقيق الكامل[6].
الأساليب الانتقائية
لا تضيف هذه الأساليب معلمات جديدة، بل تختار وتدرب مجموعة فرعية صغيرة من المعلمات الموجودة بالفعل.
- BitFit: أسلوب اقتصادي للغاية يقوم فقط بضبط متجهات الانحياز (bias terms) ومعلمات طبقات التسوية (normalization layers)، محدثًا أقل من 0.1% من إجمالي عدد المعلمات.
- التقليم التفاضلي (Diff Pruning): يستخدم قناعًا قابلاً للتدريب لتحديد الأوزان التي يجب تحديثها ديناميكيًا أثناء عملية التدريب[3].
أساليب إعادة المعلمات
تعتمد هذه الفئة على فرضية أن التغييرات في الأوزان اللازمة لتكييف النموذج لها "رتبة داخلية" منخفضة. بدلاً من تحديث مصفوفات الأوزان كاملة الحجم، تقوم هذه الأساليب بتحديث تمثيل منخفض الرتبة لها.
- LoRA (Low-Rank Adaptation): الأسلوب الأكثر شيوعًا في PEFT حاليًا. يفترض أن تحديث مصفوفة الأوزان `ΔW` يمكن تقريبه بضرب مصفوفتين منخفضتي الرتبة: `ΔW = BA`. أثناء الضبط الدقيق، يتم تجميد المصفوفة الأصلية `W`، وتدريب `A` و `B` فقط[7].
- QLoRA: يجمع بين LoRA وتقنيات التكميم (quantization) لتقليل متطلبات الذاكرة بشكل أكبر، مما يسمح بضبط نماذج تحتوي على 65 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة[8].
مقارنة الأداء والموارد
تتيح أساليب PEFT تحقيق أداء يضاهي الضبط الدقيق الكامل مع خفض جذري في التكاليف.
| النموذج | الأسلوب | المعلمات القابلة للتدريب (%) | النتيجة على المؤشر المرجعي (متوسط الدقة) | المصدر |
|---|---|---|---|---|
| BERT-Large | الضبط الدقيق الكامل | 100% | 80.4 (GLUE) | [4] |
| BERT-Large | Adapters | 3.6% | 80.0 (GLUE) | [4] |
| LLaMA-7B | LoRA | 0.83% | 74.7% | [9] |
| LLaMA-7B | DoRA (متغير من LoRA) | 0.84% | 78.1% | [9] |
المزايا الرئيسية لـ PEFT في توفير الموارد:
- ذاكرة وحدة معالجة الرسومات (VRAM): بالنسبة لنموذج LLaMA 65B، يتطلب الضبط الدقيق الكامل نظريًا أكثر من 780 جيجابايت من VRAM، بينما يتيح QLoRA ضبطه على وحدة معالجة رسومات بأقل من 48 جيجابايت من VRAM[8].
- مساحة التخزين: تشغل نقاط الحفظ (Checkpoints) الناتجة عن PEFT مساحة بالميغابايت بدلاً من الغيغابايت. وهذا يسمح بتخزين مئات "المحولات" لمهام مختلفة في مساحة كانت ستشغلها نسخة واحدة من نموذج تم ضبطه بالكامل.
مجالات التطبيق
رغم أنها طُورت في الأصل لمعالجة اللغات الطبيعية (NLP)، فقد تم تكييف أساليب PEFT بنجاح لمجموعة واسعة من المهام:
- الرؤية الحاسوبية (CV) والنماذج متعددة الوسائط (VLM): تكييف نماذج مثل Vision Transformer (ViT) و Segment Anything Model (SAM) لمهام تجزئة الصور، بما في ذلك في مجال الطب الحيوي.
- توليد وتحليل الشيفرة البرمجية: تخصيص نماذج اللغة الكبيرة لتناسب مشاريع برمجية محددة أو واجهات برمجة تطبيقات (API) داخلية أو قواعد بيانات الشيفرة.
- النماذج التوليدية: إضفاء "طابع أسلوبي" على نماذج توليد الصور مثل Stable Diffusion باستخدام محولات LoRA (تقنية Dreambooth).
- توليف الكلام: تكييف النماذج لتوليد كلام بصوت معين أو نبرة أو تلوين عاطفي.
روابط خارجية
مراجع
- Hu, E.J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv:2305.14314.
- Houlsby, N. et al. (2019). Parameter-Efficient Transfer Learning for NLP. ICML 2019.
- Li, X.L.; Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation. arXiv:2101.00190.
- Liu, X. et al. (2022). P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks. arXiv:2110.07602.
- Ben Zaken, E.; Ravfogel, S.; Goldberg, Y. (2021). BitFit: Simple Parameter-Efficient Fine-Tuning for Transformer-Based Masked Language Models. arXiv:2106.10199.
- Guo, D.; Rush, A.M.; Kim, Y. (2020). Parameter-Efficient Transfer Learning with Diff Pruning. arXiv:2012.07463.
- Jiang, Z. et al. (2024). MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning. arXiv:2405.12130.
- Mao, K. et al. (2024). A Survey on LoRA of Large Language Models. arXiv:2407.11046.
- Chen, S. et al. (2024). Parameter-Efficient Fine Tuning: A Comprehensive Analysis Across Applications. arXiv:2404.13506.
- Zhang, J. et al. (2025). Parameter-Efficient Fine-Tuning for Foundation Models. arXiv:2501.13787.
ملاحظات
- ↑ «Parameter-Efficient Fine-Tuning for Foundation Models». arXiv:2501.13787. [١]
- ↑ 2.0 2.1 «5 Problems Encountered Fine-Tuning LLMs with Solutions». Machine Learning Mastery. [٢]
- ↑ 3.0 3.1 «PEFT: Parameter-Efficient Fine-Tuning Methods for LLMs». Hugging Face Blog. [٣]
- ↑ 4.0 4.1 4.2 Houlsby, N., et al. «Parameter-Efficient Transfer Learning for NLP». Proceedings of the 36th International Conference on Machine Learning. [٤]
- ↑ Li, X.L., Liang, P. «Prefix-Tuning: Optimizing Continuous Prompts for Generation». arXiv:2101.00190. [٥]
- ↑ Liu, X., et al. «P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks». arXiv:2110.07602. [٦]
- ↑ Hu, E.J., et al. «LoRA: Low-Rank Adaptation of Large Language Models». arXiv:2106.09685. [٧]
- ↑ 8.0 8.1 Dettmers, T., et al. «QLoRA: Efficient Finetuning of Quantized LLMs». arXiv:2305.14314. [٨]
- ↑ 9.0 9.1 «Parameter Efficient Fine Tuning: A Comprehensive Analysis Across Applications». arXiv:2404.13506. [٩]