مع Quiet-STaR، تتعلم نماذج اللغة التحليل قبل الاستجابة

التقدم في التفكير الاصطناعي: تقديم Quiet-STaR

يمتلك البشر قدرة فريدة على التفكير، متأملين في "إذا" و"لماذا"، وتفسير المعلومات الضمنية لحل المشاكل المعقدة. ومع ذلك، struggled النماذج التقليدية للذكاء الاصطناعي مع هذا المستوى من التفكير. طور باحثون من جامعة ستانفورد وNotbad AI, Inc. Quiet-STaR، وهو امتداد مبتكر لنموذج Self-Taught Reasoner (STaR)، الذي يعلم الذكاء الاصطناعي التفكير قبل الرد، مقلدًا العمليات الفكرية البشرية.

تحسينات Quiet-STaR

تم تنفيذ Quiet-STaR على نموذج Mistral 7B، مما أدى إلى تحسين كبير في قدراته على التفكير دون تدريب. لوحظت تحسينات ملحوظة في:

- دقة الإجابة على الأسئلة في CommonsenseQA (من 36.3% إلى 47.2%)

- حل مسائل الرياضيات في GSM8K للمدارس الابتدائية (من 5.9% إلى 10.9%)

ترتبط هذه التحسينات مباشرة بعدد الرموز التي تمثل الأفكار الداخلية للنموذج. ويشير الباحثون إلى أن "Quiet-STaR يمثل خطوة نحو نماذج لغوية يمكنها تعلم التفكير بطريقة أكثر عمومية وقابلية للتوسع".

قيود سابقة في التفكير الاصطناعي

اعتمدت الأساليب السابقة في التفكير الاصطناعي بشكل كبير على التدريب المخصص للمهام، مما أدى إلى قابلية محدودة للتعميم. تم تدريب النماذج غالبًا باستخدام مجموعات بيانات مختارة بعناية تركزت على مهام ضيقة، مما قيد قدرتها على التكيف مع مجموعة أوسع من السيناريوهات.

على سبيل المثال، بينما تفوق نموذج اللغة المدرب على التفكير البشري في الأداء على نموذج الإجابة المباشرة، بقيت هذه الأساليب محصورة في مجموعات بيانات محددة. أثبت نموذج STaR أن الذكاء الاصطناعي يمكن أن يعزز مهاراته في التفكير من خلال التعلم التكراري من مجموعات بيانات السؤال والجواب، لكن الاعتماد على البيانات المختارة قيد نطاقه.

"التدريب من هذه البيانات سيغطي بطبيعته جزءًا فقط من مهام التفكير"، كما يجادل الباحثون، مؤكدين على ضرورة استخراج الأسباب من المدخلات النصية المتنوعة.

منهجية Quiet-STaR

تعمل تقنية Quiet-STaR على توليد أفكار داخلية متعددة في كل رمز، مما يعزز عملية "التفكير" قبل تقديم الرد. وهذا يسمح للذكاء الاصطناعي بتقييم النصوص المستقبلية في سياق محسن. من خلال استخدام خوارزمية REINFORCE، يقوم النموذج بتحسين توقعاته، متخليًا عن المخرجات الأقل دقة ويقوم بتنقيح تفكيره بشكل تكراري طوال التدريب.

لتشجيع التفكير العام، استخدم الباحثون تحفيزًا بدون تدريب ("دعونا نفكر خطوة بخطوة") وقاموا بتدريب Quiet-STaR على مجموعات بيانات نصية متنوعة من الإنترنت مثل OpenWebMath وColossal Clean Crawled Corpus. "Quiet-STaR يمكّن النموذج من التفكير بهدوء على مستوى كل رمز، مما يسهل توزيعًا يعزز الفائدة"، كما يشيرون.

Most people like

Find AI tools in YBX