معيار جديد في الذكاء الاصطناعي، GAIA، مصمم لتقييم ما إذا كانت روبوتات الدردشة مثل ChatGPT يمكنها إظهار تفكير ومهارات مشابهة للبشر في المهام اليومية.
تم تطوير GAIA بواسطة فريق من Meta وHugging Face وAutoGPT وGenAI، ويقدم أسئلة من العالم الحقيقي تتطلب قدرات أساسية مثل التفكير ومعالجة الأنواع المتعددة من البيانات وتصفح الويب وإتقان الأدوات، وفقًا للورقة البحثية التي نُشرت على arXiv.
يؤكد الباحثون أن أسئلة GAIA "بسيطة من حيث المفهوم للبشر، لكنها تمثل تحديًا لمعظم الأنظمة الذكية المتقدمة". في اختباراتهم، سجل المشاركون البشريون 92%، بينما حقق GPT-4 مع المكونات الإضافية فقط 15%.
"يدل هذا الفارق الملحوظ في الأداء على الاتجاه الحديث الذي يحقق فيه النماذج اللغوية الكبيرة [LLMs] تفوقًا على البشر في المهام المتخصصة مثل القانون أو الكيمياء"، كما ذكر المؤلفون.
GAIA يركز على الكفاءة البشرية، وليس الخبرة
على عكس المعايير التقليدية التي تركز على المهام الصعبة للبشر، يدعو الباحثون إلى التركيز على المهام التي تكشف عن قدرة الذكاء الاصطناعي على التنافس مع قوة الإنسان العادية. قام فريق GAIA بابتكار 466 سؤالاً من العالم الواقعي مع إجابات واضحة. من بين هذه الأسئلة، يحتفظ 300 منها بسريتها للمساهمة في لوحة قادة GAIA العامة، بينما تتوفر 166 سؤالاً وإجابة كمجموعة تطوير.
"حل GAIA سيمثل نقطة تحول في أبحاث الذكاء الاصطناعي"، يقول المؤلف الرئيسي غريغوار ميالون من Meta AI. "نحن نعتقد أن التغلب على التحديات التي يقدمها GAIA هو خطوة رئيسية نحو الجيل التالي من أنظمة الذكاء الاصطناعي."
فجوة الأداء بين البشر والذكاء الاصطناعي
حالياً، أعلى درجة في GAIA تحتفظ بها GPT-4 مع مكونات إضافية مختارة يدويًا، محققة دقة 30%. يقترح منشئو المعايير أن الذكاء الاصطناعي القادر على حل GAIA يمكن تصنيفه على أنه يمتلك ذكاءً عامًا اصطناعيًا (AGI) في إطار زمني معقول.
"تنتقد الورقة الاتجاه الحالي لاختبار أنظمة الذكاء الاصطناعي في الرياضيات المعقدة والعلوم وامتحانات القانون، مشيرة إلى أن المهام التي تشكل تحديات للبشر ليست بالضرورة صعبة على الأنظمة الحديثة"، كما يشرح المؤلفون.
تركز GAIA على أسئلة عملية مثل "أي مدينة استضافت مسابقة يوروفيجن للأغاني لعام 2022 وفقًا للموقع الرسمي؟" و"كم عدد الصور الموجودة في أحدث مقال ويكيبديا عن Lego لعام 2022؟"
"نعتقد أن تطوير AGI يعتمد على قدرة النظام في إظهار قوة مشابهة للقوة البشرية العادية في مثل هذه الأسئلة اليومية"، كتب الباحثون.
التأثير المحتمل لـ GAIA على تطوير الذكاء الاصطناعي
يشير تقديم GAIA إلى تحول ملحوظ في أبحاث الذكاء الاصطناعي، مع آثار بعيدة المدى. من خلال التركيز على الكفاءة البشرية في المهام اليومية بدلاً من مجرد المعرفة المتخصصة، يوسع GAIA الحدود الحالية لمعايير الذكاء الاصطناعي.
إذا تمكنت أنظمة الذكاء الاصطناعي المستقبلية من إظهار الفطرة السليمة والقدرة على التكيف والتفكير كما تم قياسه بواسطة GAIA، فإن ذلك يشير إلى أنها قد تحقق AGI عملي. يمكن أن يؤدي هذا إلى تحسين المساعدات الذكية والخدمات والمنتجات.
ومع ذلك، يحذر الباحثون من أن روبوتات الدردشة الحالية تواجه تحديات كبيرة في حل GAIA، مما يعكس القيود الحالية في التفكير واستخدام الأدوات وإدارة السيناريوهات المتنوعة من العالم الحقيقي.
بينما يتعامل الباحثون مع تحدي GAIA، ستسلط اكتشافاتهم الضوء على التقدم نحو خلق أنظمة ذكاء اصطناعي أكثر كفاءة ومرونة وموثوقية. علاوة على ذلك، تشجع المعايير مثل GAIA على التفكير النقدي حول كيفية تشكيل الذكاء الاصطناعي لإعطاء الأولوية للقيم الإنسانية مثل التعاطف والإبداع واتخاذ القرارات الأخلاقية.
للمهتمين، توفر لوحة قادة معيار GAIA رؤى حول أي نموذج لغوي كبير من الجيل التالي يتفوق حاليًا في هذا التقييم.