أعلن باحثون من مختبر الذكاء المتدرج في جامعة ستانفورد عن إطار استدلال جديد يُدعى "أركون"، مصمم لتحسين كفاءة نماذج اللغة الكبيرة (LLMs) في توليد الاستجابات. يستخدم أركون خوارزمية بحث هندسة الاستدلال في الوقت الحقيقي (ITAS) التي تعزز أداء LLM دون الحاجة لتدريب إضافي. هذا الإطار، الذي لا يعتمد على نموذج محدد وذو مصدر مفتوح، يمكن تنفيذه بسهولة مع النماذج الكبيرة والصغيرة.
يهدف أركون إلى مساعدة المطورين في إنشاء أنظمة ذكاء اصطناعي من خلال الاستفادة من تقنيات استدلال متنوعة لتسهيل عملية توليد الاستجابة. وفقًا لمختبر الذكاء المتدرج، يمكن أن تُقلل هذه التقنيات بشكل كبير من التكاليف المرتبطة بتطوير النماذج والاستدلال. مع تطور LLM نحو معلمات أكبر وطرق تفكير أكثر تعقيدًا، قد ترتفع التكاليف، رغم توقعات الشركات مثل OpenAI بزيادة التوافر.
يؤكد الباحثون أن أركون يعمل على تصميم هياكل تعزز من تعميم المهام، مما يسمح للنماذج بمواجهة تحديات خارج نطاق تدريبها الأصلي. وشرح الباحثون: "إطار أركون وخوارزمية ITAS مستلهمان من الهياكل العصبية وممارسات البحث في الهندسة. يتكون أركون من طبقات من LLMs، حيث تعمل النماذج داخل نفس الطبقة بشكل متوازي، بينما تعالج كل طبقة لاحقة النتائج بشكل متسلسل."
تستخدم هذه الطبقات تقنيات استدلال متنوعة لتعديل الاستجابات المرشحة، مستفيدة من التوليد والدمج (مثل التحولات الخطية) وتحسين الاستجابات (مثل عدم الخطية).
في الاختبارات المرجعية، بما في ذلك MT-Bench وArena-Hard-Auto وAlpaca-2.0 Eval وMixEval وMixEval Hard وMATH وCodeContests، تجاوز أركون جي بي تي-4و وكلود 3.5 سونيت بفارق 15.1 نقطة مئوية. كما تفوق على نماذج LLM مفتوحة المصدر بفارق 11.2 نقطة مئوية.
مكونات أركون
تتكون خوارزمية ITAS من عدة مكونات رئيسية تنفذ تقنيات الاستدلال:
1. المولد: يولد إجابات محتملة للنموذج.
2. المجمع: يجمع هذه الاستجابات في إجابة متناسقة. على سبيل المثال، عند سؤاله عن عاصمة فرنسا، يقوم بدمج استجابات مثل “عاصمة فرنسا هي باريس” و“فرنسا تقع في أوروبا” في بيان واحد: “عاصمة فرنسا، وهي دولة في أوروبا، هي باريس.”
3. المُصنف: يقوم بتصنيف الإجابات المُنتَجة.
4. الناقد: يقيم جودة الاستجابات المصنفة.
5. المُحقق: يتأكد من التناسق المنطقي والدقة.
6. مُولد ومقيم الاختبارات الوحدوية: يُجري اختبارات صغيرة للتحقق من دقة الاستجابة.
تتيح البنية المنهجية لأركون تحسينًا أسرع في جودة استجابات LLM دون الحاجة إلى تحسين إضافي.
قيود أركون
حاليًا، يُظهر أركون أفضل أداء مع نماذج LLM التي تمتلك 70 مليار معلمة أو أكثر، مثل نموذج كود لاما 70B من ميتا. تنشأ هذه القيود من قدرة النماذج الأصغر المحدودة على اتباع التعليمات بسبب نوافذ السياق الضيقة. وقد أبرز البحث انخفاضًا ملحوظًا بنسبة 16% في الأداء عند تطبيق أركون على نماذج 7B.
علاوة على ذلك، تتخلف النماذج التي تستخدم إطار أركون بنسبة 15.7% عن النماذج ذات الدور الواحد. أشار مختبر ستانفورد إلى أن أركون ليس مناسبًا للتطبيقات التي تتطلب زمن استجابة سريع من استدعاء LLM واحد، مثل الدردشة الآلية. تشارك بنيته عدة استدعاءات من LLM، مما يجعله أقل فعالية للمهام البسيطة التي تتطلب استجابة سريعة. ومع ذلك، قد يُبرز أركون تفوقه في معالجة المهام الأكثر تعقيدًا التي تتطلب تعليمات دقيقة، مثل البرمجة أو سيناريوهات خدمة العملاء المتقدمة.
على الرغم من هذه التحديات، يأمل الباحثون أن يُسرع أركون من تطوير LLM عالية الأداء دون الحاجة إلى استثمارات رأسمالية متزايدة في الاستدلال والتدريب.