برز نموذج GPT-4 من OpenAI كأفضل نموذج للغة الكبيرة في تقليل حالات الهلوسة عند تلخيص الوثائق، وفقاً لتقييم حديث أجرته Vectara. أطلقت الشركة قائمة شاملة على GitHub لتقييم نماذج اللغة الكبيرة، باستخدام نموذج تقييم الهلوسة الخاص بها، الذي يقوم بقياس وتيرة الهلوسات، وهي الحالات التي ينتج فيها الذكاء الاصطناعي معلومات غير دقيقة أو مختلقة خلال تلخيص الوثائق.
حقق كل من GPT-4 ونسخته GPT-4 Turbo أداءً مRemarkable، حيث سجل نموذج GPT-4 أعلى معدل دقة يبلغ 97% ومعدل هلوسة ضئيل يبلغ 3%. وكان نموذج GPT-3.5 Turbo قريبًا جدًا، حيث حصل على دقة مذهلة تصل إلى 96.5% ومعدل هلوسة أعلى قليلاً بلغ 3.5%.
من بين المنافسين غير التابعين لـ OpenAI، تمكّن إصدار Llama 2 من Meta الذي يحتوي على 70 مليار بارامتر من تمييز نفسه، حيث سجل دقة بنسبة 94.9% ومعدل هلوسة يبلغ 5.1% فقط. وعلى العكس، كانت نماذج Google ذات أداء ضعيف في قائمة التقييم. سجل Google Palm 2 دقة بلغت 87.9% مع معدل هلوسة بلغ 12.1%، بينما انخفضت النسخة المحسّنة للدردشة إلى 72.8% من الدقة، مع أعلى معدل هلوسة بلغ 27.2%.
من الملاحظ أن Google Palm 2 Chat أنتج أعلى متوسط لعدد الكلمات لكل ملخص بواقع 221 كلمة، بينما أنتج GPT-4 متوسط 81 كلمة لكل ملخص.
منهجية التقييم
تقييم Vectara، الذي يهدف إلى تحديد حالات الهلوسة في مخرجات نماذج اللغة الكبيرة، استخدم مجموعات بيانات مفتوحة المصدر. اختبرت الشركة كل نموذج ضد 1,000 وثيقة قصيرة، طالبة ملخصات تعتمد فقط على المحتوى المقدم في تلك الوثائق. ومع ذلك، تم تلخيص 831 من هذه الوثائق فقط بواسطة كل نموذج، حيث تم استبعاد البقية بسبب قيود المحتوى. بالنسبة للوثائق المشتركة بين جميع النماذج، قامت Vectara بحساب معدلات الدقة والهلوسة الإجمالية.
من المهم الإشارة إلى أنه رغم خلو المحتوى الممتحن من المواد غير القانونية و"غير المناسبة للعمل"، أدت وجود بعض الكلمات التحفيزية إلى فرض قيود على المحتوى من بعض النماذج.
معالجة تحديات الهلوسة
تمثل مشكلة الهلوسة عائقاً رئيسياً أمام الاعتماد الواسع للذكاء الاصطناعي التوليدي في المؤسسات. وأبرز شين كونلي، رئيس منتج في Vectara، في تدوينة له الصعوبة التاريخية في قياس الهلوسات بشكل فعال. غالبًا ما كانت المحاولات السابقة تجريدية أو تشتمل على مواضيع جدلية، مما حد من تطبيقها العملي في الأعمال.
نموذج تقييم الهلوسة الذي أنشأته Vectara مفتوح المصدر، مما يسمح للمؤسسات باستخدامه لتقييم موثوقية نماذج اللغة الخاصة بها ضمن أطر العمل المعززة بالاسترجاع (RAG). يتوفر هذا النموذج عبر Hugging Face، مما يمكن المستخدمين من تخصيصه وفقًا لاحتياجاتهم الفريدة.
كما يوضح كونلي، "هدفنا هو تزويد المؤسسات بالرؤى اللازمة لتمكينها من تنفيذ أنظمة توليد المحتوى بثقة من خلال تحليل شامل وكمّي." من خلال توفير فهم أوضح لمخرجات الذكاء الاصطناعي، يمكن للشركات التنقل بشكل أفضل في تفاصيل تكنولوجيا الذكاء الاصطناعي التوليدي.