جوجل ديب مايند تقدم المقيِّم التوليدي GenRM لتعزيز قدرات التفكير لدى الذكاء الاصطناعي
بتاريخ 27 أغسطس 2023، نشر فريق جوجل ديب مايند ورقة بحثية على arXiv تعلن عن مقيِّم توليدي مبتكر يُدعى GenRM. تم تصميم هذا النموذج الجديد لتحسين قدرات التفكير لدى الذكاء الاصطناعي التوليدي بشكل ملحوظ.
حالياً، الطريقة السائدة لتحسين نماذج اللغة الكبيرة هي استخدام نهج "الأفضل من N". تتضمن هذه التقنية توليد N من الحلول المرشحة، والتي يتم تقييمها لتحديد الخيار الأفضل. ومع ذلك، فإن المقيمين التقليديين لنماذج اللغة الكبيرة غالباً ما يعملون كفئات تمييزية، مما يعيق الاستفادة الكاملة من قدرات توليد النصوص لنماذج اللغة المدربة مسبقاً.
لكي تتغلب على هذه القيود، قام فريق ديب مايند بتدريب المقيِّم باستخدام التنبؤ بالرمز التالي، مما يوفر التكامل بين التحقق من الصحة وتوليد الحلول. يوفر GenRM عدة مزايا فريدة مقارنةً بالمقيمين التقليديين:
- تكامل سلس لتعديل التعليمات
- دعم لتفكير سلسلة الأفكار
- حساب وقت إضافي للتفكير باستخدام تصويت الأغلبية
في المهام المتعلقة بالخوارزميات والتفكير الرياضي الأساسي، تفوق GenRM على كل من المقيمين التمييزيين ومقيم LLM كقاضٍ عند اختباره مع مقيمين قائمين على Gemma، محققاً زيادة في نسبة نجاح حل المشكلات تتراوح بين 16% إلى 64%.
تؤكد جوجل ديب مايند أن GenRM يمثل تطوراً كبيراً في أنظمة مكافآت الذكاء الاصطناعي، خصوصاً في تعزيز القدرة على منع السلوكيات الاحتيالية المحتملة في تدريب النماذج الجديدة. تؤكد هذه التطورات على ضرورة تحسين نماذج المكافآت لضمان توافق مخرجات الذكاء الاصطناعي مع معايير المسؤولية الاجتماعية.