Constitutional AI — الذكاء الاصطناعي الدستوري

From Systems analysis wiki
Jump to navigation Jump to search

الذكاء الاصطناعي الدستوري (Constitutional AI، CAI) هو منهجية لتدريب نماذج اللغة الكبيرة (LLM) تعتمد على استخدام مجموعة واضحة من القواعد والمبادئ (ما يسمى بـ«الدستور») لتشكيل سلوك آمن وأخلاقي وقابل للتنبؤ للذكاء الاصطناعي. طوّرت هذا النهج شركة الأبحاث Anthropic في عام 2022 كبديل للتعلم المعزز من خلال التغذية الراجعة البشرية (RLHF).

يمكّن CAI النموذج من تقييم وتصحيح سلوكه بشكل مستقل وفقًا لنظام قيمي محدد، مما يضمن التوازن بين الفائدة والنزاهة وعدم الإضرار.

التاريخ والدافع

اقترح باحثو Anthropic هذه المنهجية استجابةً لقيود نهج RLHF، والتي تشمل:

  • الحاجة إلى التصنيف اليدوي على نطاق واسع؛
  • عدم شفافية القيم التي يكتسبها النموذج؛
  • ميل النماذج إلى رفض الاستجابة لطلبات قد تكون آمنة؛
  • صعوبة نقل القيم إلى سياقات ثقافية وتنظيمية أخرى.

صُمم CAI بهدف زيادة الشفافية وقابلية التوسع في تدريب الذكاء الاصطناعي الأخلاقي، مع ضمان الامتثال للحقوق والمعايير الأساسية.

الأساس النظري

يقوم CAI على فكرة تزويد النموذج بشكل صريح بمجموعة من القواعد (الدستور) التي تعكس القيم الإنسانية العالمية. من أمثلة هذه المبادئ:

  • احترام حقوق الإنسان (استنادًا إلى الإعلان العالمي لحقوق الإنسان[1]
  • حظر التمييز والعدوانية والسلوك السام؛
  • حماية المعلومات السرية؛
  • إعطاء الأولوية للنزاهة والدقة الواقعية؛
  • تشجيع التعاون والتفاعل غير العنيف.

على عكس RLHF[2]، حيث تُحدد توجهات النموذج السلوكية بشكل غير مباشر من خلال تفضيلات المصنِّفين البشريين، يستخدم CAI قائمة من الأحكام التنظيمية المصاغة بوضوح، والمتاحة للمراجعة والتعديل.

البنية والتدريب

يُنفذ CAI على مرحلتين:

  1. التدريب مع النقد الذاتي (Self-Critique Phase): يُنشئ النموذج استجابة لأحد الطلبات، ثم باستخدام مبادئ الدستور، يحلل ويصحح استجابته الخاصة بشكل مستقل إذا كانت تنتهك المعايير المحددة. تُستخدم هذه الأزواج (الاستجابة الأصلية والمصححة) لإعادة تدريب النموذج بأسلوب الضبط الدقيق الخاضع للإشراف (supervised fine-tuning).
  2. التعلم المعزز من خلال التغذية الراجعة من الذكاء الاصطناعي (RLAIF): بالنسبة لمجموعات متعددة من أزواج الاستجابات، يقوم نموذج-حكم (عادة ما يكون نفس النموذج) بمقارنة الخيارات من منظور الامتثال للدستور. بعد ذلك، يتم تدريب نموذج المكافأة، ويُعاد تدريب النموذج الرئيسي باستخدام التعلم المعزز (RL) (مثل PPO) بناءً على هذه التغذية الراجعة. تتجنب هذه المنهجية تمامًا التصنيف اليدوي للمحتوى السام وتعتمد على الرقابة الآلية للامتثال للقيم.

المزايا والخصائص

  • الشفافية: يمكن نشر الدستور ومراجعته والتحقق منه.
  • قابلية التوسع: لا حاجة للتصنيف اليدوي المكلف.
  • الأمان: تقليل مخاطر السلوك الضار أو التمييزي من النموذج.
  • الفائدة: النموذج لا يميل إلى الرفض المفرط للاستجابة كما هو الحال في RLHF.
  • قابلية التحكم: يمكن تكييف القيم لتناسب السياقات القانونية أو الثقافية.

دستور الذكاء الاصطناعي الشعبي: تجربة عام 2023

في عام 2023، أجرت شركة Anthropic بالتعاون مع مبادرة الأبحاث Collective Intelligence Project[3] تجربة هي الأولى من نوعها لتطوير «دستور شعبي» للذكاء الاصطناعي[4]. كان الهدف من المشروع هو استكشاف كيفية دمج الرأي العام والمبادئ الديمقراطية في صياغة القيود التنظيمية لسلوك نماذج اللغة.

شارك في الدراسة أكثر من 1000 شخص يمثلون عينة متوازنة ديموغرافيًا من مواطني الولايات المتحدة. طُلب من المشاركين تقييم واختيار القيم التي يجب أن يسترشد بها الذكاء الاصطناعي، بالإضافة إلى صياغة مبادئ سلوكية محددة للمساعدين الرقميين. استُخدمت في العملية أساليب التصويت الجماعي والترتيب والاختيار القائم على الحجج، بما في ذلك نسخ معدلة من آليات مثل الاقتراع التداولي (Deliberative Polling) والتصويت التربيعي (Quadratic Voting). الخصائص الرئيسية للتجربة:

  • النطاق — أكثر من 1000 مشارك يغطون مجموعة واسعة من الآراء السياسية والأوضاع الاجتماعية والمستويات التعليمية؛
  • الإجراء — مناقشة وتوضيح المعايير بشكل متكرر، والتصويت على المبادئ، والتحقق من الصياغات؛
  • النتيجة — تشكيل دستور بديل للذكاء الاصطناعي، موجه حسب التفضيلات المعبر عنها ديمقراطيًا.

أظهر التحليل المقارن بين الدستور «الشعبي» والدستور الأصلي (الذي وضعه خبراء Anthropic) تطابقًا كبيرًا في المبادئ الأساسية:

  • حظر التمييز،
  • تشجيع النزاهة،
  • احترام الخصوصية.

ومع ذلك، كانت النسخة «الشعبية» أكثر تركيزًا على:

  • المساواة في الوصول إلى المعلومات؛
  • الموضوعية والحياد في الإجابات؛
  • حق المستخدم في الحصول على تفسير من النموذج.

أظهرت التجربة أن إدماج الآليات الديمقراطية في عملية إنشاء الأطر التنظيمية للذكاء الاصطناعي يمكن أن يساهم في:

  • شرعية سلوك الذكاء الاصطناعي في نظر المستخدمين؛
  • تقليل مخاطر التحيز الثقافي أو السياسي؛
  • قبول أوسع لأنظمة الذكاء الاصطناعي في المجتمع.

قراءات إضافية

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
  • Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
  • Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
  • Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
  • Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
  • Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
  • Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.

المراجع

  1. «الإعلانات والاتفاقيات والعهود وغيرها من الصكوك القانونية».[١]
  2. «Reinforcement Learning from Human Feedback». في ويكيبيديا [٢]
  3. «The Collective Intelligence Project». https://www.cip.org.[٣]
  4. «Collective Constitutional AI: Aligning a Language Model with Public Input». [٤]