كشف مؤشر الهلوسة الجديد من شركة غاليليو، ومقرها في سان فرانسيسكو، والذي يساعد الشركات في تطوير وتحسين ومراقبة تطبيقات نماذج اللغة الكبيرة (LLM)، أن نموذج GPT-4 من OpenAI يظهر أقل قدر من الهلوسة في مختلف المهام. تم نشر هذا المؤشر اليوم، حيث قيم حوالي عشرة نماذج LLM مفتوحة ومغلقة المصدر، بما في ذلك سلسلة Llama من Meta، لمقارنة أدائها وتحديد النموذج الذي يعاني من أقل الهلوسة.
تشير النتائج إلى أنه على الرغم من أن جميع نماذج LLM تظهر سلوكيات مختلفة مع المهام المتنوعة، إلا أن نماذج OpenAI تتفوق باستمرار على غيرها في عدة سيناريوهات. يهدف هذا المؤشر إلى مساعدة الشركات في التغلب على تحدي الهلوسة، وهو حاجز كبير يمنع الانتشار الواسع لنماذج LLM في قطاعات حيوية مثل الرعاية الصحية.
تتبع هلوسة LLM: مهمة صعبة
على الرغم من الاهتمام الكبير من الشركات في الذكاء الاصطناعي التوليدي ونشر LLM، فإن الفجوات في الأداء غالبًا ما تظهر. قد تنتج نماذج LLM استجابات ليست دقيقة تمامًا بسبب اعتمادها على قاعدة بيانات متجهة تحدد المصطلحات والمفاهيم ذات الصلة، بغض النظر عن الحقيقة. أوضح أتيندريو سانيال، الشريك المؤسس والمدير الفني لشركة غاليليو، "هناك العديد من العوامل التي تؤثر على نشر منتجات الذكاء الاصطناعي التوليدي. على سبيل المثال، هل تم تصميم أداتك لتوليد قصص من تحفيزات بسيطة، أم إنها دردشة تفاعلية ترد على استفسارات العملاء استنادًا إلى معلومات خاصة؟"
حاليًا، تستخدم الشركات مقاييس لتقييم أداء النموذج، ولكن كان هناك نقص في قياس شمولية حدوث الهلوسة - حتى الآن. لمعالجة هذه المشكلة، قام سانيال وفريقه بتقييم أحد عشر نموذجًا بارزًا مفتوح ومغلق المصدر مقابل ثلاث مهام شائعة: الأسئلة والإجابات دون استخدام التوليد المعزز بالاسترجاع (RAG)، والأسئلة والإجابات مع RAG، وتوليد النصوص الطويلة.
"لقد اخترنا سبعة مجموعات بيانات شعبية معترف بها كمعايير صارمة لتحدي قدرات كل نموذج بالمقارنة مع المهام"، أضاف سانيال. على سبيل المثال، في فئة الأسئلة والإجابات دون RAG، استخدموا مجموعات بيانات مثل TruthfulQA وTriviaQA لقياس مدى قدرة النماذج على التعامل مع الاستفسارات العامة. قام فريق غاليليو بتقليل أحجام البيانات وتدوينها لتأسيس حقيقة دقيقة لتقييم الدقة. واستخدموا مقاييس الدقة والتوافق السياقي الخاصة بهم لتقييم النتائج.
نظرة عامة على الأداء
في فئة الأسئلة والإجابات دون استخدام الاسترجاع، تفوق نماذج GPT من OpenAI، حيث حصل نموذج GPT-4-0613 على نتيجة دقة قدرها 0.77. تبعه نموذج GPT-3.5 Turbo-1106 وGPT-3.5-Turbo-Instruct وGPT-3.5-Turbo-0613، محققين درجات 0.74 و0.70 و0.70 على التوالي. كان نموذج Llama-2-70b من Meta هو المنافس الأقرب بسجل قدره 0.65، بينما حصلت نماذج مثل Llama-2-7b-chat وMosaic ML’s MPT-7b-instruct على درجات أقل (0.52 و0.40).
في مهام الاسترجاع، ظهر نموذج GPT-4-0613 مرة أخرى كالأعلى أداءً، حيث حصل على درجة توافق سياقي قدرها 0.76، يليه نموذج GPT-3.5-Turbo-0613 و-1106 بدرجات 0.75 و0.74 على التوالي. بشكل مثير للإعجاب، حقق Zephyr-7b من Hugging Face درجة 0.71، متجاوزًا Llama-2-70b (درجة = 0.68). أظهر نموذج Falcon-40b من الإمارات وMosaic ML’s MPT-7b مجالًا للتحسين بدرجات 0.60 و0.58.
في مهام توليد النصوص الطويلة، حقق كل من GPT-4-0613 وLlama-2-70b درجات عالية (0.83 و0.82 على التوالي)، مما يدل على الحد الأدنى من الهلوسة. تطابق نموذج GPT-3.5-Turbo-1106 درجة Llama في حين تبعته النسخة 0613 عن كثب عند 0.81. بينما حقق MPT-7b درجة 0.53.
توازن الأداء والتكاليف
بينما يحتفظ نموذج GPT-4 من OpenAI بأداء متفوق في جميع المهام، فإن تكلفة واجهة برمجة التطبيقات قد تزيد بشكل كبير من التكاليف. تقترح غاليليو على الفرق التفكير في نماذج GPT-3.5-Turbo للحصول على أداء مماثل بتكاليف مخفضة. بالإضافة إلى ذلك، يمكن أن تقدم النماذج مفتوحة المصدر مثل Llama-2-70b توازنًا بين الأداء والقدرة على تحمل التكاليف.
من المهم الاعتراف بأن هذا المؤشر سيتطور، مع ظهور نماذج جديدة وتحسين النماذج الحالية بمرور الوقت. تخطط غاليليو لتحديث المؤشر ربع سنوي لتزويد الفرق بتصنيفات دقيقة لنماذج LLM فيما يتعلق بالميل إلى الهلوسة عبر مهام متنوعة.
وأضاف سانيال، "هدفنا هو تزويد الفرق بأساس متين لمواجهة الهلوسة. رغم أننا لا نتوقع أن يتم اعتبار مؤشر الهلوسة كمرجع نهائي، إلا أننا نأمل أن يكون نقطة انطلاق شاملة لمبادراتهم في الذكاء الاصطناعي التوليدي".