حدد الباحثون عيبًا كبيرًا في تطور روبوتات الدردشة المتقدمة. بينما تصبح نماذج الذكاء الاصطناعي أكثر دقة بمرور الوقت، فإنها تميل أيضًا إلى الإجابة عن أسئلة خارج نطاق خبرتها بدلاً من الاعتراف بعدم اليقين. وهذا يؤدي إلى تصديق المستخدمين لإجاباتها الواثقة لكن غير الصحيحة، مما ي perpetuates دورة من المعلومات الخاطئة. يقول هوزيه هيرنانديز-أورالو، أستاذ في جامعة البوليتكنيك في فالنسيا، إسبانيا: "إنهم يجيبون على كل شيء تقريبًا في هذه الأيام، مما يعني مزيدًا من الإجابات الصحيحة، ولكن أيضًا المزيد من الإجابات غير الصحيحة".
استكشفت دراسة هيرنانديز-أورالو، التي أجراها مع زملائه في معهد فالنسيا للذكاء الاصطناعي، ثلاثة أنواع من نماذج اللغة الكبيرة: سلسلة GPT من OpenAI، وLLaMA من Meta، وBLOOM مفتوح المصدر. قامت الفريق بتحليل مجموعة من النماذج تبدأ من GPT-3 ada البسيطة نسبيًا، وصولاً إلى GPT-4 المتقدمة، التي أُصدرت في مارس 2023. لم تشمل التحليلات النسخ الأحدث، مثل GPT-4o وo1-preview.
قيم الباحثون كل نموذج باستخدام آلاف الأسئلة عبر مواضيع متنوعة، بما في ذلك الحساب والجغرافيا والعلوم، بالإضافة إلى مهام مثل ترتيب القوائم. صنفوا الأسئلة حسب صعوبتها المتصورة، وكشفت النتائج أنه مع تقدم النماذج، زادت وتيرة الإجابات غير الصحيحة، مما يشير إلى أن الروبوتات الأكثر تطورًا تشبه الأساتذة الواثقين الذين يعتقدون أن لديهم الأجوبة لكل سؤال.
تزيد التفاعلات البشرية من تعقيد المشكلة. فالمتطوعون المكلفون بتقييم دقة Outputs الذكاء الاصطناعي غالبًا ما يصنفون الإجابات الخاطئة كصحيحة، مع معدلات خطأ تتراوح بين 10 إلى 40 بالمئة. وخلص هيرنانديز-أورالو إلى أن "البشر غير قادرين على الإشراف على هذه النماذج بفعالية."
للتخفيف من هذه المشكلة، يقترح فريق البحث أن يركز مطورو الذكاء الاصطناعي على تعزيز الأداء في المهام الأسهل، وبرمجة روبوتات الدردشة لعدم محاولة الإجابة عن الأسئلة الأكثر تعقيدًا. أضاف هيرنانديز-أورالو: "نحتاج إلى أن يتعرف الناس: 'يمكنني استخدامه في هذا المجال، ولا ينبغي أن أستخدمه في ذلك المجال'."
على الرغم من أن هذا اقتراح حكيم، قد يكون هناك القليل من الحوافز لشركات الذكاء الاصطناعي لاعتماده. قد يبدو روبوتات الدردشة التي تعترف في كثير من الأحيان بعدم معرفتها للإجابات أقل تقدمًا أو قيمة، مما يؤدي إلى انخفاض الاستخدام والإيرادات للمطورين. نتيجة لذلك، لا تزال هناك إعلانات تشير إلى أن "ChatGPT قد يرتكب أخطاء" أو أن "Gemini قد يعرض معلومات غير دقيقة."
في النهاية، تصبح مسؤوليتنا فحص والتحقق من الإجابات التي تقدمها روبوتات الدردشة لتجنب نشر معلومات خاطئة قد تسبب الضرر. لضمان الدقة، تحقق دائمًا من صحة إجابات روبوت الدردشة لديك.