لايف بنش: معيار مفتوح لنماذج اللغة الكبيرة مع بيانات اختبار خالية من التلوث وتقييم موضوعي

Home أخبار الذكاء الاصطناعي لايف بنش: معيار مفتوح لنماذج اللغة الكبيرة مع بيانات اختبار خالية من التلوث وتقييم موضوعي

Updated on يونيو 12 2024

فريق متعاون من Abacus.AI، جامعة نيويورك، Nvidia، جامعة ماريلاند، وجامعة جنوب كاليفورنيا قدم LiveBench، وهو معيار مبتكر يهدف إلى التغلب على القيود الكبيرة التي تواجهها المعايير الصناعية الحالية. يعد LiveBench أداة تقييم شاملة لنماذج اللغة الكبيرة (LLMs)، حيث يوفر مجموعات اختبار خالية من التلوث والتي تعاني منها المعايير السابقة بسبب استخدامها المتكرر عبر نماذج مختلفة.

ما هو المعيار؟

المعيار هو اختبار موحد يقيم أداء نماذج الذكاء الاصطناعي من خلال مجموعة من المهام أو القياسات. يسمح للباحثين والمطورين بمقارنة النتائج، تتبع التقدم، وفهم إمكانيات النماذج المختلفة.

يتميز LiveBench بمساهمات من معلم الذكاء الاصطناعي يان ليكون، كبير العلماء في Meta، بالإضافة إلى كولن وايت، رئيس الأبحاث في Abacus.AI، والعديد من الباحثين البارزين الآخرين. وأوضح غولدبلوم، أحد المساهمين الرئيسيين، ضرورة تحسين معايير LLM، مشيرًا إلى أن هذه المبادرة كانت مدفوعة بالحاجة إلى أسئلة متنوعة تم إنشاؤها حديثًا للقضاء على تلوث مجموعة الاختبار.

أبرز النقاط في LiveBench

أبرزت زيادة استخدام LLMs عدم كفاءة المعايير التقليدية لتعلم الآلة. معظم المعايير متاحة للجمهور، ويضم العديد من LLMs الحديثة كميات هائلة من بيانات الإنترنت أثناء التدريب. وبالتالي، إذا واجهت LLM أسئلة معيارية خلال التدريب، فقد يبدو أداءها مرتفعًا بشكل مصطنع، مما يثير القلق بشأن موثوقية هذه التقييمات.

يهدف LiveBench إلى معالجة هذه القضايا من خلال إصدار أسئلة محدثة شهريًا مأخوذة من مجموعة متنوعة من مجموعات البيانات الحديثة، مسابقات الرياضيات، أوراق arXiv، قصص الأخبار، وملخصات الأفلام من IMDb. حاليًا، هناك 960 سؤالًا متاحًا، كل منها يحتوي على إجابة موضوعية يمكن التحقق منها، مما يسمح بتقييم دقيق دون الحاجة إلى حكام من LLM.

فئات المهام

يتميز LiveBench بـ 18 مهمة عبر ست فئات، مستفيدًا من مصادر المعلومات المحدثة باستمرار لتعزيز تنوع الأسئلة والتحدي. الفئات هي:

- الرياضيات: أسئلة مأخوذة من مسابقات الرياضيات في المدارس الثانوية ومشاكل AMPS المتقدمة.

- البرمجة: تشمل توليد الشفرات ومهمة جديدة لإكمال الشفرات.

- الاستدلال: سيناريوهات تحدي مأخوذة من شبكة الأكاذيب في Big-Bench Hard والاستدلال المكاني.

- فهم اللغة: مهام تتعلق بألغاز الكلمات، وإزالة الأخطاء المطبعية، وفك تشفير ملخصات الأفلام.

- اتباع التعليمات: أربعة مهام تركز على إعادة الصياغة، والتلخيص، وتوليد القصص استنادًا إلى مقالات حديثة.

- تحليل البيانات: مهام تعيد تنسيق الجداول، وتحديد الأعمدة القابلة للتوصيل، وتوقع أنواع الأعمدة باستخدام مجموعات بيانات حديثة.

يتم تقييم النماذج بناءً على معدلات النجاح، والتي يجب أن تتراوح بين 30% و70%، مما يعكس صعوبة المهام.

لوحة قيادة LLM في LiveBench

اعتبارًا من 12 يونيو 2024، قام LiveBench بتقييم العديد من LLMs البارزة، مما كشف أن أفضل النماذج حققت أقل من 60% دقة. على سبيل المثال، يتقدم GPT-4o من OpenAI بمعدل متوسط قدره 53.79، تليه GPT-4 Turbo بمعدل 53.34.

تأثيرات على قادة الأعمال

تقديم النماذج في مجال الذكاء الاصطناعي يمثل تحديات لقادة الأعمال، خاصة في اختيار LLM المناسب. تقدم المعايير بعض الطمأنة بشأن أداء النماذج، لكنها غالبًا ما تفشل في تقديم الصورة الكاملة. يشير غولدبلوم إلى أن LiveBench يسهل مقارنة النماذج، مما يقلل من القلق بشأن تلوث البيانات والتحيز في التقييمات البشرية.

مقارنة بالمعايير الحالية

قام فريق LiveBench بإجراء تحليلات بجانب معايير معروفة مثل Chatbot Arena من LMSYS وArena-Hard. بينما تتماشى اتجاهات LiveBench بشكل عام مع المعايير الأخرى، تشير بعض الفروق إلى تحيزات محتملة متأصلة في تقييمات LLM.

تم تصميم LiveBench كأداة مفتوحة المصدر، مما يسمح لأي شخص باستخدامها، والمساهمة فيها، وتوسيع قدراتها. كما يشير وايت، فإن المعايير الفعالة ضرورية لتطوير LLMs عالية الأداء، مما يعزز بدوره الابتكار في النماذج.

يمكن للمطورين الوصول إلى شفرة LiveBench عبر GitHub واستخدام مجموعات بياناته على Hugging Face.

الهندسة الثورية للمحوّلات: فتح آفاق نماذج اللغة الكبيرة القوية بدون وحدات معالجة الرسوميات

إطلاق آلة أحلام لوما: لم نعد بحاجة إلى سورا - زيادة حركة المرور لمنصات توليد الفيديو بالذكاء الاصطناعي الجديدة

Most people like

TutorEva

245.2K

اكتشف أداة الدراسة المثلى المعتمدة على الذكاء الاصطناعي، المصممة خصيصاً لمواد الجامعة. عزّز تجربتك التعليمية بدعم مخصص، واستراتيجيات دراسة فعّالة، وموارد مُفصّلة تلبي احتياجاتك الأكاديمية. سواء كنت تواجه مفاهيم معقدة أو تستعد للامتحانات، فإن هذه الأداة المبتكرة موجودة لتمكين رحلتك التعليمية.

مساعد الواجبات المنزلية الذكي Homework Helper

Jeffrey Célavie AI Astrologer

11.5K

يعمل جفري سيلافي، عالم الفلك المدعوم بالذكاء الاصطناعي، على دمج قوة الذكاء الاصطناعي مع حكمة الفلك القديمة لتقديم رؤى مخصصة تتوافق مع شخصيتك الفلكية الفريدة. اكتشف كيف يمكن أن تضيء الإرشادات المخصصة طريقك!

ذكاء اصطناعي أوركل AI Chatbot

MuseChat

14.6K

اكتشف عالم الرفقة الذكية، حيث تلتقي التكنولوجيا بالترابط.

رفقة الذكاء الاصطناعي AI Character

Endel

247.5K

تستخدم إنديل قوة علم الأعصاب لإنشاء مشاهد صوتية مصممة خصيصًا لتعزيز التركيز، وتعزيز الاسترخاء، وتحسين جودة النوم. اكتشف كيف يمكن لهذه التجارب الصوتية الفريدة أن تحول روتينك اليومي.

إيندل AI Music Generator

Find AI tools in YBX