تظهر SCoRe من DeepMind كيف تستفيد نماذج اللغة الكبيرة (LLMs) من المعرفة الداخلية لتصحيح الأخطاء تلقائياً.

بينما تزداد قدرة نماذج اللغة الكبيرة (LLMs) على التعامل مع المهام المعقدة، إلا أنها غالبًا ما تواجه صعوبات في تقديم إجابات دقيقة من المحاولة الأولى. أسفر ذلك عن زيادة الاهتمام بتحسين قدرتها على تحديد وتصحيح الأخطاء، وهي عملية تُعرف باسم "التصحيح الذاتي". ومع ذلك، فإن طرق التصحيح الذاتي الحالية محدودة وغالبًا ما تفشل في تلبية المتطلبات الواقعية.

في ورقة بحثية رائدة، يقدم الباحثون في Google DeepMind طريقة «التصحيح الذاتي عبر التعلم المعزز» (SCoRe)، وهي نهج جديد يعزز بشكل كبير من قدرات التصحيح الذاتي لنماذج اللغة الكبيرة باستخدام بيانات مولّدة ذاتيًا فقط. يُتوقع أن تُحسن SCoRe من موثوقية وكفاءة نماذج اللغة الكبيرة، مما يفتح آفاقًا جديدة لتحسين مهارات التفكير وحل المشكلات.

يقول أفيال كومار، عالم البحث في Google DeepMind: "التصحيح الذاتي يُعزز تفكير الإنسان بشكل كبير. غالبًا ما يستغرق البشر وقتًا للتفكير في أفكار متعددة وتصحيح أخطائهم، مما يقودهم في النهاية إلى الحل الصحيح. نريد من نماذج اللغة الكبيرة أن تفعل الشيء نفسه".

يجب أن تتمكن نموذج اللغة الكبير المثالي، الذي يتمتع بقدرات قوية على التصحيح الذاتي، من تقييم وتنقيح ردوده حتى يصل إلى الإجابة الصحيحة. هذا أمر حاسم، لأنه رغم أن هذه النماذج غالبًا ما تمتلك المعرفة اللازمة لحل المشكلات، إلا أنها قد تواجه صعوبة في استخدامها بشكل فعال في ردودها الأولية.

وكما يوضح كومار، "من منظور أساسي للتعلم الآلي، لا نتوقع من نماذج اللغة الكبيرة حل المشكلات المعقدة من المحاولة الأولى. لذلك، نريد من هذه النماذج أن تستثمر جهدًا حوسبيًا أكبر في التفكير والتصحيح الذاتي لتحقيق النجاح في حل المشكلات الصعبة".

اعتمدت المحاولات السابقة لتمكين التصحيح الذاتي في نماذج اللغة الكبيرة على هندسة التعليمات أو تحسين النماذج، مما يتطلب عادةً ردود فعل خارجية أو توجيه من "Oracle". هذه التقنيات القائمة غالبًا ما تتجاهل قدرات النماذج الذاتية في التصحيح. على سبيل المثال، تعتمد طرق التحسين الخاضعة للإشراف (SFT) بشكل كبير على التغذية الراجعة من المعلقين البشريين أو النماذج الأقوى، مما يحد من إمكانية تطبيقها في السيناريوهات الواقعية. علاوة على ذلك، تتطلب طرق SFT أحيانًا عدة نماذج أثناء الاستدلال للتحقق، مما يعقد عملية النشر.

تشير أبحاث DeepMind إلى أنه بينما يمكن أن تعزز طرق SFT من المخرجات الأولية للنموذج، فإنها تعاني من نقص حين يتعين على النموذج مراجعة الإجابات على مدى عدة خطوات - وهي حاجة شائعة في المشكلات المعقدة. "بحلول نهاية التدريب، قد يتعلم النموذج تصحيح أخطاء النموذج الأساسي لكنه قد يفتقر إلى القدرة على اكتشاف أخطائه الخاصة"، كما يلاحظ كومار.

أحد العيوب الأخرى لـ SFT هو احتمال التصرف غير المرغوب فيه، حيث يتعلم النموذج تقديم أفضل إجابة في محاولته الأولى دون تعديل، حتى لو كانت خاطئة. "تميل النماذج المدربة بواسطة SFT إلى اعتماد استراتيجية مباشرة، بدلاً من التعلم من عملية التصحيح الذاتي"، يضيف.

التقدم من خلال التعلم المعزز

لمعالجة هذه القيود، توجه الباحثون في DeepMind إلى التعلم المعزز (RL). "لا تؤدي نماذج اللغة الكبيرة الحالية التصحيح الذاتي بشكل فعّال"، يؤكد كومار. "إنها ليست مدربة على التفكير في الأخطاء السابقة؛ بل تهدف بدلاً من ذلك إلى إنتاج أفضل استجابة للأسئلة. لذلك، قمنا بتطوير طرق للتصحيح الذاتي".

تعلّم SCoRe نموذجًا واحدًا كيفية توليد الإجابات وتصحيح أخطائه بشكل مستقل، دون الحاجة إلى تغذية خارجية. يتم ذلك من خلال التدريب فقط على بيانات مولّدة ذاتيًا، مما يقضي على الاعتماد على المعلومات الخارجية.

اعتمدت طرق RL السابقة للتصحيح الذاتي بشكل أساسي على التفاعلات ذات الدور الواحد، مما أدى إلى انهيار السلوك، حيث تجاهل النموذج أوامر التصحيح الذاتي لصالح تقديم إجابة تعتمد على الذاكرة. "أدت طرق RL الساذجة إلى تجاهل النماذج لتحفيز التصحيح الذاتي، والتركيز فقط على إنتاج استجابة بدون تدريب"، كما يقول كومار.

لمكافحة انهيار السلوك، توظف SCoRe عملية تدريب من مرحلتين معززة بتقنيات التنظيم. تركز المرحلة الأولى على تحسين أداء التصحيح مع ضمان توافق ردود النموذج الأولية مع مخرجات النموذج الأساسي. تستخدم المرحلة الثانية التدريب المعزز متعدد الأدوار لتحسين الأداء في كل من المحاولات الأولية واللاحقة، متضمنة نظام مكافآت يحفز النموذج على تحسين إجاباته عبر عدة تكرارات.

"تضمن هذه الطريقة المزدوجة أن النموذج لا يتعلم ببساطة تقديم أفضل رد أولي وإجراء تعديلات طفيفة عليه"، يوضح الباحثون. "بشكل عام، تستفيد SCoRe بشكل فعّال من المعرفة الأساسية للنموذج من أجل تحسين التصحيح الذاتي".

SCoRe قيد التنفيذ

قيم الباحثون في DeepMind SCoRe مقابل طرق التصحيح الذاتي الحالية باستخدام بيانات مولّدة ذاتيًا، مع التركيز على مهام الرياضيات والترميز بمقاييس مثل MATH وMBPP وHumanEval.

أظهرت SCoRe تحسينات ملحوظة في قدرات التصحيح الذاتي لنماذج Gemini 1.0 Pro و1.5 Flash، حيث حققت زيادة بنسبة 15.6% على مقياس MATH و9.1% على HumanEval مقارنة بالنموذج الأساسي، متجاوزة تقنيات التصحيح الذاتي الأخرى.

كانت التحسن الأكثر بروزًا هي قدرة النموذج على تنقيح أخطائه من المحاولة الأولى إلى الثانية مع الحد من التعديلات غير الصحيحة على الإجابات الصحيحة. أثبتت SCoRe أيضًا كفاءة عالية عند دمجها مع استراتيجيات توسيع الوقت في الاستدلال، مما ساهم في تعزيز الأداء من خلال توزيع نفس ميزانية الاستدلال عبر جولات تصحيح متعددة.

بينما يركز البحث بشكل أساسي على مهام الترميز والتفكير، يعتقد الفريق أن SCoRe يمكن أن يكون لها تطبيقات أوسع. "تخيل نماذج قادرة على التعرف على المخرجات غير الآمنة المحتملة وتحسينها بشكل مستقل قبل ظهورها للمستخدم"، يقترح كومار.

تؤكد هذه الدراسة على أهمية تعليم نماذج اللغة الكبيرة كيفية التفكير والتصحيح الذاتي، بدلاً من مجرد مطابقة المدخلات مع المخرجات، مما يمهد الطريق لأنظمة ذكاء اصطناعي أكثر قدرة وموثوقية.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles