تظهر SCoRe من DeepMind كيف تستفيد نماذج اللغة الكبيرة (LLMs) من المعرفة الداخلية لتصحيح الأخطاء تلقائياً.

Home أخبار الذكاء الاصطناعي تظهر SCoRe من DeepMind كيف تستفيد نماذج اللغة الكبيرة (LLMs) من المعرفة الداخلية لتصحيح الأخطاء تلقائياً.

Updated on أكتوبر 1 2024

بينما تزداد قدرة نماذج اللغة الكبيرة (LLMs) على التعامل مع المهام المعقدة، إلا أنها غالبًا ما تواجه صعوبات في تقديم إجابات دقيقة من المحاولة الأولى. أسفر ذلك عن زيادة الاهتمام بتحسين قدرتها على تحديد وتصحيح الأخطاء، وهي عملية تُعرف باسم "التصحيح الذاتي". ومع ذلك، فإن طرق التصحيح الذاتي الحالية محدودة وغالبًا ما تفشل في تلبية المتطلبات الواقعية.

في ورقة بحثية رائدة، يقدم الباحثون في Google DeepMind طريقة «التصحيح الذاتي عبر التعلم المعزز» (SCoRe)، وهي نهج جديد يعزز بشكل كبير من قدرات التصحيح الذاتي لنماذج اللغة الكبيرة باستخدام بيانات مولّدة ذاتيًا فقط. يُتوقع أن تُحسن SCoRe من موثوقية وكفاءة نماذج اللغة الكبيرة، مما يفتح آفاقًا جديدة لتحسين مهارات التفكير وحل المشكلات.

يقول أفيال كومار، عالم البحث في Google DeepMind: "التصحيح الذاتي يُعزز تفكير الإنسان بشكل كبير. غالبًا ما يستغرق البشر وقتًا للتفكير في أفكار متعددة وتصحيح أخطائهم، مما يقودهم في النهاية إلى الحل الصحيح. نريد من نماذج اللغة الكبيرة أن تفعل الشيء نفسه".

يجب أن تتمكن نموذج اللغة الكبير المثالي، الذي يتمتع بقدرات قوية على التصحيح الذاتي، من تقييم وتنقيح ردوده حتى يصل إلى الإجابة الصحيحة. هذا أمر حاسم، لأنه رغم أن هذه النماذج غالبًا ما تمتلك المعرفة اللازمة لحل المشكلات، إلا أنها قد تواجه صعوبة في استخدامها بشكل فعال في ردودها الأولية.

وكما يوضح كومار، "من منظور أساسي للتعلم الآلي، لا نتوقع من نماذج اللغة الكبيرة حل المشكلات المعقدة من المحاولة الأولى. لذلك، نريد من هذه النماذج أن تستثمر جهدًا حوسبيًا أكبر في التفكير والتصحيح الذاتي لتحقيق النجاح في حل المشكلات الصعبة".

اعتمدت المحاولات السابقة لتمكين التصحيح الذاتي في نماذج اللغة الكبيرة على هندسة التعليمات أو تحسين النماذج، مما يتطلب عادةً ردود فعل خارجية أو توجيه من "Oracle". هذه التقنيات القائمة غالبًا ما تتجاهل قدرات النماذج الذاتية في التصحيح. على سبيل المثال، تعتمد طرق التحسين الخاضعة للإشراف (SFT) بشكل كبير على التغذية الراجعة من المعلقين البشريين أو النماذج الأقوى، مما يحد من إمكانية تطبيقها في السيناريوهات الواقعية. علاوة على ذلك، تتطلب طرق SFT أحيانًا عدة نماذج أثناء الاستدلال للتحقق، مما يعقد عملية النشر.

تشير أبحاث DeepMind إلى أنه بينما يمكن أن تعزز طرق SFT من المخرجات الأولية للنموذج، فإنها تعاني من نقص حين يتعين على النموذج مراجعة الإجابات على مدى عدة خطوات - وهي حاجة شائعة في المشكلات المعقدة. "بحلول نهاية التدريب، قد يتعلم النموذج تصحيح أخطاء النموذج الأساسي لكنه قد يفتقر إلى القدرة على اكتشاف أخطائه الخاصة"، كما يلاحظ كومار.

أحد العيوب الأخرى لـ SFT هو احتمال التصرف غير المرغوب فيه، حيث يتعلم النموذج تقديم أفضل إجابة في محاولته الأولى دون تعديل، حتى لو كانت خاطئة. "تميل النماذج المدربة بواسطة SFT إلى اعتماد استراتيجية مباشرة، بدلاً من التعلم من عملية التصحيح الذاتي"، يضيف.

التقدم من خلال التعلم المعزز

لمعالجة هذه القيود، توجه الباحثون في DeepMind إلى التعلم المعزز (RL). "لا تؤدي نماذج اللغة الكبيرة الحالية التصحيح الذاتي بشكل فعّال"، يؤكد كومار. "إنها ليست مدربة على التفكير في الأخطاء السابقة؛ بل تهدف بدلاً من ذلك إلى إنتاج أفضل استجابة للأسئلة. لذلك، قمنا بتطوير طرق للتصحيح الذاتي".

تعلّم SCoRe نموذجًا واحدًا كيفية توليد الإجابات وتصحيح أخطائه بشكل مستقل، دون الحاجة إلى تغذية خارجية. يتم ذلك من خلال التدريب فقط على بيانات مولّدة ذاتيًا، مما يقضي على الاعتماد على المعلومات الخارجية.

اعتمدت طرق RL السابقة للتصحيح الذاتي بشكل أساسي على التفاعلات ذات الدور الواحد، مما أدى إلى انهيار السلوك، حيث تجاهل النموذج أوامر التصحيح الذاتي لصالح تقديم إجابة تعتمد على الذاكرة. "أدت طرق RL الساذجة إلى تجاهل النماذج لتحفيز التصحيح الذاتي، والتركيز فقط على إنتاج استجابة بدون تدريب"، كما يقول كومار.

لمكافحة انهيار السلوك، توظف SCoRe عملية تدريب من مرحلتين معززة بتقنيات التنظيم. تركز المرحلة الأولى على تحسين أداء التصحيح مع ضمان توافق ردود النموذج الأولية مع مخرجات النموذج الأساسي. تستخدم المرحلة الثانية التدريب المعزز متعدد الأدوار لتحسين الأداء في كل من المحاولات الأولية واللاحقة، متضمنة نظام مكافآت يحفز النموذج على تحسين إجاباته عبر عدة تكرارات.

"تضمن هذه الطريقة المزدوجة أن النموذج لا يتعلم ببساطة تقديم أفضل رد أولي وإجراء تعديلات طفيفة عليه"، يوضح الباحثون. "بشكل عام، تستفيد SCoRe بشكل فعّال من المعرفة الأساسية للنموذج من أجل تحسين التصحيح الذاتي".

SCoRe قيد التنفيذ

قيم الباحثون في DeepMind SCoRe مقابل طرق التصحيح الذاتي الحالية باستخدام بيانات مولّدة ذاتيًا، مع التركيز على مهام الرياضيات والترميز بمقاييس مثل MATH وMBPP وHumanEval.

أظهرت SCoRe تحسينات ملحوظة في قدرات التصحيح الذاتي لنماذج Gemini 1.0 Pro و1.5 Flash، حيث حققت زيادة بنسبة 15.6% على مقياس MATH و9.1% على HumanEval مقارنة بالنموذج الأساسي، متجاوزة تقنيات التصحيح الذاتي الأخرى.

كانت التحسن الأكثر بروزًا هي قدرة النموذج على تنقيح أخطائه من المحاولة الأولى إلى الثانية مع الحد من التعديلات غير الصحيحة على الإجابات الصحيحة. أثبتت SCoRe أيضًا كفاءة عالية عند دمجها مع استراتيجيات توسيع الوقت في الاستدلال، مما ساهم في تعزيز الأداء من خلال توزيع نفس ميزانية الاستدلال عبر جولات تصحيح متعددة.

بينما يركز البحث بشكل أساسي على مهام الترميز والتفكير، يعتقد الفريق أن SCoRe يمكن أن يكون لها تطبيقات أوسع. "تخيل نماذج قادرة على التعرف على المخرجات غير الآمنة المحتملة وتحسينها بشكل مستقل قبل ظهورها للمستخدم"، يقترح كومار.

تؤكد هذه الدراسة على أهمية تعليم نماذج اللغة الكبيرة كيفية التفكير والتصحيح الذاتي، بدلاً من مجرد مطابقة المدخلات مع المخرجات، مما يمهد الطريق لأنظمة ذكاء اصطناعي أكثر قدرة وموثوقية.

بيكا 1.5 تكشف عن مؤثرات بصرية مذهلة تعتمد على الذكاء الاصطناعي بقدرات تتحدى الفيزياء

إطار عمل Archon Inference يعزز سرعة وكفاءة نماذج اللغة الكبيرة LLM دون أي تكاليف إضافية.

Most people like

Vidful.ai

9.3K

قم بإنشاء مقاطع فيديو مذهلة بسهولة من النصوص والصور باستخدام تكنولوجيا إنشاء الفيديو بالذكاء الاصطناعي.

مولد الفيديو بالذكاء الاصطناعي AI Content Generator

Deep Dream Generator

1.2M

ديب دريم جينيراتور هو مولد صور مبتكر يعتمد على الذكاء الاصطناعي، يستخدم خوارزميات التعلم العميق المتطورة لإنتاج صور فريدة وفنية. استكشف العالم الساحر للفن المولد بالذكاء الاصطناعي واكتشف كيف يحول هذا الأداة المبتكرة الصور العادية إلى تحف مذهلة.

الذكاء الاصطناعي AI Photo & Image Generator

ConvertMate

28.4K

افتح إمكانيات متجرك على Shopify من خلال تحسين مدعوم بالذكاء الاصطناعي لصفحات المنتجات. عزز تجربة المستخدم، وزد من معدل التحويل، وحقق المزيد من المبيعات مع حلول ذكية مصممة لرفع مستوى عملك عبر الإنترنت. اكتشف كيف يمكن أن تحول أدوات الذكاء الاصطناعي المتطورة عروض منتجاتك وتجذب المزيد من العملاء إلى موقعك على Shopify.

محول المات AI Product Description Generator

RightBlogger

101.5K

مرحبًا بكم في RightBlogger، المنصة المبتكرة المدفوعة بالذكاء الاصطناعي المصممة خصيصًا للمدونين. مع أكثر من 40 أداة قوية في متناول يديك، يمكنك إنشاء محتوى عالي الجودة بسهولة وفي وقت أقل من أي وقت مضى. ارتقِ بتجربتك في التدوين وزِد إنتاجيتك مع RightBlogger اليوم!

أدوات المحتوى المدعومة بالذكاء الاصطناعي AI Content Generator

Find AI tools in YBX