قدمت OpenAI نهجًا جديدًا لتوافق نماذج الذكاء الاصطناعي مع سياسات السلامة تحت مسمى المكافآت القائمة على القواعد (RBR). وأوضحت ليليان وينغ، رئيسة أنظمة السلامة في OpenAI، أن RBR يعمل على أتمتة بعض أجزاء تعديل النموذج، مما يقلل بشكل كبير من الوقت اللازم لتجنب ردود الفعل غير المقصودة من النموذج.
تعتمد النماذج تقليديًا على التعلم المعزز من تعليقات البشر لتدريب التوافق، وهو أمر فعال لكنه يستغرق وقتًا طويلاً، كما أشارت وينغ في حديثها. "نقضي غالبًا وقتًا كبيرًا في مناقشة تفاصيل السياسات، وفي نهاية المطاف، قد تتغير السياسة بالفعل"، بحسب ما ذكرت.
يتضمن التعلم المعزز من تعليقات البشر تحفيز النماذج وتقييم ردود أفعالها بناءً على الدقة والتفضيل. إذا تم برمجة نموذج لعدم الاستجابة بطريقة معينة - مثل رفض الطلبات الخطيرة - يقوم مقيمون بشريون بالتحقق مما إذا كان يتماشى مع إرشادات السلامة.
مع RBR، تتيح OpenAI للفرق المعنية بالسلامة والسياسة استخدام نموذج يقيم الردود بناءً على القواعد المحددة. على سبيل المثال، قد يحتاج فريق تطوير تطبيق لصحة العقل إلى أن يرفض نموذج الذكاء الاصطناعي الطلبات غير الآمنة دون أن يكون حكمياً، مع تشجيع المستخدمين على طلب المساعدة. وهذا يتطلب صياغة ثلاث قواعد: يجب على النموذج رفض الطلب، والحفاظ على نبرة غير حكمية، وتقديم تذكيرات داعمة.
يقوم نموذج RBR بتقييم ردود الذكاء الاصطناعي في مجال الصحة العقلية وفقًا لهذه القواعد الثلاثة لتحديد الامتثال. وأفادت وينغ بأن نتائج الاختبارات باستخدام RBR تعادل تلك التي تم الحصول عليها من خلال التعلم المعزز تحت إشراف البشر.
رغم وعود RBR، فإن ضمان عمل نماذج الذكاء الاصطناعي ضمن معايير محددة يبقى تحديًا، وغالبًا ما يؤدي إلى جدل. على سبيل المثال، واجهت Google ردود فعل سلبية في فبراير بعد أن قام نموذج Gemini بإجراء تصحيحات مفرطة، مما نتج عنه رفض إنتاج صور لأشخاص بيض، وبدلاً من ذلك إنتاج مخرجات تاريخية غير دقيقة.
تقليل الذاتية البشرية
يثير مفهوم أن الذكاء الاصطناعي يراقب سلامة ذكاء اصطناعي آخر مخاوف مشروعة. ومع ذلك، تجادل وينغ بأنه يساعد RBR في تقليل الذاتية، وهو تحدٍ شائع للمقيمين البشر. "عند العمل مع المدربين البشر، تؤدي التعليمات الغامضة إلى بيانات ذات جودة أقل"، كما قالت. القواعد الواضحة، كما تقول، توجه سلوك النموذج بشكل أكثر فعالية.
تقر OpenAI أن RBR يمكن أن يقلل من الإشراف البشري، ولكنه ينطوي أيضًا على تحديات أخلاقية، مثل احتمال زيادة التحيز. تؤكد الشركة على أهمية تصميم أنظمة RBR لضمان العدالة والدقة، مشيرة إلى ضرورة الجمع بين RBR وتعليقات البشر. قد يواجه RBR صعوبة في المهام التي تتطلب الحكم الذاتي، مثل الكتابة الإبداعية.
بدأت OpenAI في استكشاف طرق RBR خلال تطوير GPT-4، وتذكر وينغ أن هذه المنهجية قد تقدمت بشكل ملحوظ منذ ذلك الحين. وقد واجهت OpenAI تدقيقًا فيما يتعلق بالتزامها بالسلامة، ففي مارس، انتقد الباحث السابق يان ليكي ثقافة الشركة في السـلامة وعملياتها، مشيرًا إلى أنها قد طغت عليها السعي وراء المنتجات المبتكرة. وقد ترك إيليا سوتسكيبر، المؤسس المشارك والعالم الرئيسي الذي قاد سابقًا فريق Superalignment بجانب ليكي، OpenAI لتأسيس شركة جديدة تركز على أنظمة الذكاء الاصطناعي الآمنة.