قائمة المتصدرين: GPT-4 من OpenAI يحقق أدنى معدل للهلوسة

Home أخبار الذكاء الاصطناعي قائمة المتصدرين: GPT-4 من OpenAI يحقق أدنى معدل للهلوسة

Updated on أكتوبر 25 2024

برز نموذج GPT-4 من OpenAI كأفضل نموذج للغة الكبيرة في تقليل حالات الهلوسة عند تلخيص الوثائق، وفقاً لتقييم حديث أجرته Vectara. أطلقت الشركة قائمة شاملة على GitHub لتقييم نماذج اللغة الكبيرة، باستخدام نموذج تقييم الهلوسة الخاص بها، الذي يقوم بقياس وتيرة الهلوسات، وهي الحالات التي ينتج فيها الذكاء الاصطناعي معلومات غير دقيقة أو مختلقة خلال تلخيص الوثائق.

حقق كل من GPT-4 ونسخته GPT-4 Turbo أداءً مRemarkable، حيث سجل نموذج GPT-4 أعلى معدل دقة يبلغ 97% ومعدل هلوسة ضئيل يبلغ 3%. وكان نموذج GPT-3.5 Turbo قريبًا جدًا، حيث حصل على دقة مذهلة تصل إلى 96.5% ومعدل هلوسة أعلى قليلاً بلغ 3.5%.

من بين المنافسين غير التابعين لـ OpenAI، تمكّن إصدار Llama 2 من Meta الذي يحتوي على 70 مليار بارامتر من تمييز نفسه، حيث سجل دقة بنسبة 94.9% ومعدل هلوسة يبلغ 5.1% فقط. وعلى العكس، كانت نماذج Google ذات أداء ضعيف في قائمة التقييم. سجل Google Palm 2 دقة بلغت 87.9% مع معدل هلوسة بلغ 12.1%، بينما انخفضت النسخة المحسّنة للدردشة إلى 72.8% من الدقة، مع أعلى معدل هلوسة بلغ 27.2%.

من الملاحظ أن Google Palm 2 Chat أنتج أعلى متوسط لعدد الكلمات لكل ملخص بواقع 221 كلمة، بينما أنتج GPT-4 متوسط 81 كلمة لكل ملخص.

منهجية التقييم

تقييم Vectara، الذي يهدف إلى تحديد حالات الهلوسة في مخرجات نماذج اللغة الكبيرة، استخدم مجموعات بيانات مفتوحة المصدر. اختبرت الشركة كل نموذج ضد 1,000 وثيقة قصيرة، طالبة ملخصات تعتمد فقط على المحتوى المقدم في تلك الوثائق. ومع ذلك، تم تلخيص 831 من هذه الوثائق فقط بواسطة كل نموذج، حيث تم استبعاد البقية بسبب قيود المحتوى. بالنسبة للوثائق المشتركة بين جميع النماذج، قامت Vectara بحساب معدلات الدقة والهلوسة الإجمالية.

من المهم الإشارة إلى أنه رغم خلو المحتوى الممتحن من المواد غير القانونية و"غير المناسبة للعمل"، أدت وجود بعض الكلمات التحفيزية إلى فرض قيود على المحتوى من بعض النماذج.

معالجة تحديات الهلوسة

تمثل مشكلة الهلوسة عائقاً رئيسياً أمام الاعتماد الواسع للذكاء الاصطناعي التوليدي في المؤسسات. وأبرز شين كونلي، رئيس منتج في Vectara، في تدوينة له الصعوبة التاريخية في قياس الهلوسات بشكل فعال. غالبًا ما كانت المحاولات السابقة تجريدية أو تشتمل على مواضيع جدلية، مما حد من تطبيقها العملي في الأعمال.

نموذج تقييم الهلوسة الذي أنشأته Vectara مفتوح المصدر، مما يسمح للمؤسسات باستخدامه لتقييم موثوقية نماذج اللغة الخاصة بها ضمن أطر العمل المعززة بالاسترجاع (RAG). يتوفر هذا النموذج عبر Hugging Face، مما يمكن المستخدمين من تخصيصه وفقًا لاحتياجاتهم الفريدة.

كما يوضح كونلي، "هدفنا هو تزويد المؤسسات بالرؤى اللازمة لتمكينها من تنفيذ أنظمة توليد المحتوى بثقة من خلال تحليل شامل وكمّي." من خلال توفير فهم أوضح لمخرجات الذكاء الاصطناعي، يمكن للشركات التنقل بشكل أفضل في تفاصيل تكنولوجيا الذكاء الاصطناعي التوليدي.

تطور غير مسبوق: نظامان ذكاء صناعي يتفاوضان بنجاح على عقدهما الخاص

استطلاع: تعمد معظم الشركات إلى تبني ممارسات الذكاء الاصطناعي المسؤول مع ظهور لوائح عالمية جديدة

Most people like

Genspark.ai

1.1M

استكشف المركز المثالي لأدلة السفر والمراجعات! تم تصميم منصتنا للمغامرين والمتسوقين الذكيين، حيث تقدم تحليلات متعمقة حول أفضل الوجهات والمنتجات الأساسية التي يجب اقتناؤها. سواء كنت تخطط لرحلتك القادمة أو تبحث عن أفضل المعدات، نحن نقدم لك معلومات موثوقة ومراجعات خبراء لتعزيز تجربتك. انضم إلينا لاكتشاف العالم، دليل ومراجعة واحدة في كل مرة!

أدلة السفر AI Trip Planner

Medical Realities

6.2K

استكشف التأثير التحويلي لتقنيات الواقع الممتد (XR) والواقع الافتراضي (VR) في التعليم الطبي. تقوم هذه الأدوات المبتكرة بإعادة تشكيل طريقة تعلم وممارسة المتخصصين في الرعاية الصحية، حيث تقدم محاكاة واقعية تعزّز من الفهم والمهارات. اكتشف كيف تمهد تقنيات XR وVR الطريق نحو تجربة تعليمية أكثر جاذبية وفعالية في المجال الطبي.

التعليم الطبي Healthcare

EssayGenius

76K

إيساي جينيوس هي منصة مبتكرة تعتمد على الذكاء الاصطناعي تهدف إلى مساعدة المستخدمين في كتابة مقالات عالية الجودة بسرعة وكفاءة. باستخدام تقنية متقدمة، تُبسط عملية الكتابة، مما يمكّنك من إنتاج محتوى مدهش في وقت أقل.

أخرى Writing Assistants

MakeLogoAI

61K

أنشئ شعارات مميزة بسهولة مع منصة MakeLogoAI المبتكرة المدعومة بالذكاء الاصطناعي.

شعارات مولدة بواسطة الذكاء الاصطناعي AI Logo Generator

Find AI tools in YBX