لايف بنش: معيار مفتوح لنماذج اللغة الكبيرة مع بيانات اختبار خالية من التلوث وتقييم موضوعي

فريق متعاون من Abacus.AI، جامعة نيويورك، Nvidia، جامعة ماريلاند، وجامعة جنوب كاليفورنيا قدم LiveBench، وهو معيار مبتكر يهدف إلى التغلب على القيود الكبيرة التي تواجهها المعايير الصناعية الحالية. يعد LiveBench أداة تقييم شاملة لنماذج اللغة الكبيرة (LLMs)، حيث يوفر مجموعات اختبار خالية من التلوث والتي تعاني منها المعايير السابقة بسبب استخدامها المتكرر عبر نماذج مختلفة.

ما هو المعيار؟

المعيار هو اختبار موحد يقيم أداء نماذج الذكاء الاصطناعي من خلال مجموعة من المهام أو القياسات. يسمح للباحثين والمطورين بمقارنة النتائج، تتبع التقدم، وفهم إمكانيات النماذج المختلفة.

يتميز LiveBench بمساهمات من معلم الذكاء الاصطناعي يان ليكون، كبير العلماء في Meta، بالإضافة إلى كولن وايت، رئيس الأبحاث في Abacus.AI، والعديد من الباحثين البارزين الآخرين. وأوضح غولدبلوم، أحد المساهمين الرئيسيين، ضرورة تحسين معايير LLM، مشيرًا إلى أن هذه المبادرة كانت مدفوعة بالحاجة إلى أسئلة متنوعة تم إنشاؤها حديثًا للقضاء على تلوث مجموعة الاختبار.

أبرز النقاط في LiveBench

أبرزت زيادة استخدام LLMs عدم كفاءة المعايير التقليدية لتعلم الآلة. معظم المعايير متاحة للجمهور، ويضم العديد من LLMs الحديثة كميات هائلة من بيانات الإنترنت أثناء التدريب. وبالتالي، إذا واجهت LLM أسئلة معيارية خلال التدريب، فقد يبدو أداءها مرتفعًا بشكل مصطنع، مما يثير القلق بشأن موثوقية هذه التقييمات.

يهدف LiveBench إلى معالجة هذه القضايا من خلال إصدار أسئلة محدثة شهريًا مأخوذة من مجموعة متنوعة من مجموعات البيانات الحديثة، مسابقات الرياضيات، أوراق arXiv، قصص الأخبار، وملخصات الأفلام من IMDb. حاليًا، هناك 960 سؤالًا متاحًا، كل منها يحتوي على إجابة موضوعية يمكن التحقق منها، مما يسمح بتقييم دقيق دون الحاجة إلى حكام من LLM.

فئات المهام

يتميز LiveBench بـ 18 مهمة عبر ست فئات، مستفيدًا من مصادر المعلومات المحدثة باستمرار لتعزيز تنوع الأسئلة والتحدي. الفئات هي:

- الرياضيات: أسئلة مأخوذة من مسابقات الرياضيات في المدارس الثانوية ومشاكل AMPS المتقدمة.

- البرمجة: تشمل توليد الشفرات ومهمة جديدة لإكمال الشفرات.

- الاستدلال: سيناريوهات تحدي مأخوذة من شبكة الأكاذيب في Big-Bench Hard والاستدلال المكاني.

- فهم اللغة: مهام تتعلق بألغاز الكلمات، وإزالة الأخطاء المطبعية، وفك تشفير ملخصات الأفلام.

- اتباع التعليمات: أربعة مهام تركز على إعادة الصياغة، والتلخيص، وتوليد القصص استنادًا إلى مقالات حديثة.

- تحليل البيانات: مهام تعيد تنسيق الجداول، وتحديد الأعمدة القابلة للتوصيل، وتوقع أنواع الأعمدة باستخدام مجموعات بيانات حديثة.

يتم تقييم النماذج بناءً على معدلات النجاح، والتي يجب أن تتراوح بين 30% و70%، مما يعكس صعوبة المهام.

لوحة قيادة LLM في LiveBench

اعتبارًا من 12 يونيو 2024، قام LiveBench بتقييم العديد من LLMs البارزة، مما كشف أن أفضل النماذج حققت أقل من 60% دقة. على سبيل المثال، يتقدم GPT-4o من OpenAI بمعدل متوسط قدره 53.79، تليه GPT-4 Turbo بمعدل 53.34.

تأثيرات على قادة الأعمال

تقديم النماذج في مجال الذكاء الاصطناعي يمثل تحديات لقادة الأعمال، خاصة في اختيار LLM المناسب. تقدم المعايير بعض الطمأنة بشأن أداء النماذج، لكنها غالبًا ما تفشل في تقديم الصورة الكاملة. يشير غولدبلوم إلى أن LiveBench يسهل مقارنة النماذج، مما يقلل من القلق بشأن تلوث البيانات والتحيز في التقييمات البشرية.

مقارنة بالمعايير الحالية

قام فريق LiveBench بإجراء تحليلات بجانب معايير معروفة مثل Chatbot Arena من LMSYS وArena-Hard. بينما تتماشى اتجاهات LiveBench بشكل عام مع المعايير الأخرى، تشير بعض الفروق إلى تحيزات محتملة متأصلة في تقييمات LLM.

تم تصميم LiveBench كأداة مفتوحة المصدر، مما يسمح لأي شخص باستخدامها، والمساهمة فيها، وتوسيع قدراتها. كما يشير وايت، فإن المعايير الفعالة ضرورية لتطوير LLMs عالية الأداء، مما يعزز بدوره الابتكار في النماذج.

يمكن للمطورين الوصول إلى شفرة LiveBench عبر GitHub واستخدام مجموعات بياناته على Hugging Face.

Most people like

Find AI tools in YBX