أظهرت دراسة حديثة من DeepMind التابعة لجوجل أن نظام الذكاء الاصطناعي يمكنه التفوق على المراجعين البشر في تقييم دقة المعلومات التي تنتجها النماذج اللغوية الكبيرة. تلخص الورقة البحثية، المعنونة "الحقائق طويلة المدى في النماذج اللغوية الكبيرة"، المنشورة على arXiv، الطريقة الجديدة المُبتكرة المعروفة باسم مُقيم الحقائق المعززة بالبحث (SAFE). تستخدم هذه الطريقة نموذجًا لغويًا كبيرًا لتحليل النصوص المتولدة إلى حقائق فردية وتقييم دقة كل ادعاء بالاستفادة من نتائج بحث جوجل.
تمتاز تقنية SAFE بعملية تتضمن تفكيك الردود الطويلة إلى حقائق متميزة وتقييم كل منها من خلال تسلسل منطقي متعدد الخطوات. يتضمن ذلك إجراء استعلامات بحث على جوجل للتحقق مما إذا كانت المعلومات مدعومة بمصادر ذات صلة.
نقاش حول الأداء "فوق البشري"
قارن الباحثون بين SAFE والمراجعين البشر باستخدام مجموعة بيانات تحتوي على حوالي 16,000 حقيقة. أظهرت النتائج أن تقييمات SAFE تتوافق مع تقييمات البشر بنسبة 72%. وفي عينة من 100 تناقض، كانت أحكام SAFE صحيحة بنسبة 76%. ومع أن الورقة تدعي أن "عوامل النماذج اللغوية الكبيرة يمكنها تحقيق أداء فوق البشري"، إلا أن بعض الخبراء يتحدون هذا التعريف. علق غاري ماركوس، الباحث البارز في الذكاء الاصطناعي، على تويتر، مشيرًا إلى أن "فوق البشري" قد يعني كونك "أفضل من عامل مجمع غير مدفوع بشكل جيد بدلاً من مراجعي الحقائق البشر الحقيقيين." وشبه ذلك بأن البرامج المستخدمة في الشطرنج عام 1985 كانت تمثل القدرات فوق البشرية.
يجادل ماركوس بأنه لتأكيد ادعاءات الأداء الفوق بشري، يجب أن يتم قياس SAFE مقابل مُراجعين بشريين خبراء بدلاً من العمال العرضيين. تعتبر التفاصيل مثل مؤهلات وأساليب المراجعين البشر ضرورية لفهم النتائج بدقة.
توفير التكاليف ومعايير النماذج
من المزايا الملحوظة لـ SAFE هو تكلفته المعقولة؛ إذ وجد الباحثون أن استخدام نظام الذكاء الاصطناعي كان أرخص بنحو 20 مرة من توظيف مراجعي الحقائق البشر. بالنظر إلى الزيادة الكبيرة في حجم المعلومات التي تنتجها النماذج اللغوية، فإن وجود حل قابل للتطوير وفعال من حيث التكلفة للتحقق من الادعاءات يعد أمرًا حيويًا.
طبق فريق DeepMind تقنية SAFE لتقييم دقة الحقائق لـ 13 لغة نموذج رائد من أربع عائلات (Gemini وGPT وClaude وPaLM-2) باستخدام معيار جديد يسمى LongFact. تشير النتائج إلى أن النماذج الأكبر بشكل عام ترتكب أخطاءً أقل في الحقائق. ومع ذلك، فإن حتى أفضل النماذج لا تزال تنتج عددًا كبيرًا من الأخطاء، مما يسلط الضوء على أهمية الحذر عند الاعتماد على النماذج اللغوية التي قد تنقل معلومات مضللة. يمكن أن تكون الأدوات مثل SAFE فعالة في تقليل هذه المخاطر.
حاجة إلى الشفافية والمعايير البشرية
بينما يتوفر كود SAFE ومجموعة بيانات LongFact على GitHub، مما يسمح بمزيد من التدقيق والتطوير، إلا أن هناك حاجة إلى مزيد من الشفافية بشأن المعايير البشرية المستخدمة في الدراسة. يعد فهم مؤهلات وعمليات العاملين الجماعيين ضروريًا لوضع أداء SAFE في السياق الصحيح.
مع سعي شركات التكنولوجيا لتطوير نماذج لغوية أكثر تطورًا لتطبيقات متنوعة، قد تصبح القدرة على التحقق من صحة تلك النماذج تلقائيًا أمرًا حاسمًا. تعتبر الابتكارات مثل SAFE تقدمًا كبيرًا نحو إنشاء الثقة والمساءلة في المعلومات الناتجة عن الذكاء الاصطناعي.
ومع ذلك، من الضروري أن تتقدم هذه التقنيات المؤثرة بشفافية، مع دمج آراء مختلف الأطراف المعنية. سيكون القياس الدقيق والشفاف مقارنة بالخبراء الحقيقيين - بدلاً من العمال العرضيين فقط - مفتاحًا لقياس التقدم الحقيقي. فقط حينها يمكننا فهم فعالية التحقق الآلي من الحقائق في مكافحة المعلومات المضللة.