كشف باحثو Meta AI عن OpenEQA، مجموعة بيانات معيارية مبتكرة ومفتوحة المصدر، مصممة لتقييم كفاءة نظام الذكاء الاصطناعي في "الإجابة عن الأسئلة المتجسدة". تتيح هذه القدرة للذكاء الاصطناعي فهم العالم الحقيقي والرد بدقة على الاستفسارات اللغوية الطبيعية حول بيئات مختلفة.
تعتبر مجموعة بيانات OpenEQA موردًا جوهريًا في مجال "الذكاء الاصطناعي المتجسد"، حيث تتضمن أكثر من 1,600 سؤال يتعلق بأكثر من 180 بيئة حقيقية، مثل المنازل والمكاتب. يتم تصنيف هذه الأسئلة إلى سبعة أنواع متميزة لتقييم مهارات الذكاء الاصطناعي في التعرف على الأشياء والخصائص، والتفكير المكاني، والتفكير الوظيفي، والمعرفة العامة.
وأفاد الباحثون في منشورهم: "تعد الإجابة عن الأسئلة المتجسدة (EQA) تطبيقًا ذا معنى وإطارًا لتقييم فهم وكيل الذكاء الاصطناعي للعالم". وأضافوا: "يتطلب EQA فهم بيئة معينة بشكل كافٍ للإجابة عن الأسئلة المتعلقة بها بلغة طبيعية".
ومن الجدير بالذكر أن النماذج المتقدمة مثل GPT-4V واجهت تحديات في مضاهاة أداء الإنسان في OpenEQA، مما يعكس صرامة المعيار في تقييم قدرة الذكاء الاصطناعي على الفهم والرد على الأسئلة المتعلقة بالعالم الحقيقي.
ربط مجالات الذكاء الاصطناعي المتنوعة
تجمع مبادرة OpenEQA بين العديد من المجالات الرائدة في الذكاء الاصطناعي، بما في ذلك رؤية الكمبيوتر، ومعالجة اللغة الطبيعية، وتمثيل المعرفة، والروبوتات. الهدف النهائي هو خلق وكلاء اصطناعيين قادرين على إدراك والتفاعل مع محيطهم، والانخراط في محادثات طبيعية مع البشر، واستخدام المعرفة لتحسين الحياة اليومية.
يتصور الباحثون تطبيقين رئيسيين لـ "الذكاء المتجسد". أولاً، يمكن للمساعدين الذكيين المدمجين في نظارات أو سماعات الواقع المعزز استخدام بيانات الفيديو وأجهزة الاستشعار لتقديم ذاكرة تصويرية للمستخدمين، للرد على أسئلة مثل: "أين تركت مفاتيحي؟" ثانياً، يمكن للروبوتات المتنقلة التنقل بشكل مستقل في البيئات لجمع المعلومات، مثل تحديد: "هل لدي أي قهوة متبقية؟"
تأسيس معيار تقييم صارم
في تطوير مجموعة بيانات OpenEQA، بدأ باحثو Meta بجمع لقطات فيديو ومسح ثلاثي الأبعاد للإعدادات الحقيقية. ثم تمت دعوة الأفراد لصياغة الأسئلة التي يمكن أن يطرحها مساعد الذكاء الاصطناعي الذي يمتلك بيانات بصرية.
تتضمن مجموعة البيانات 1,636 سؤالًا تقيس مجموعة واسعة من مهارات الإدراك والتفكير. على سبيل المثال، تتطلب الإجابة على "كم عدد الكراسي حول طاولة الطعام؟" من الذكاء الاصطناعي التعرف على الأشياء، وفهم المصطلح المكاني "حول"، واحتساب العناصر المعنية. تتطلب استفسارات أخرى فهماً أساسياً لاستخدامات الأشياء وخصائصها.
لزيادة الدقة، تحتوي كل سؤال على عدة إجابات تم إنشاؤها بواسطة بشر، مع الاعتراف بإمكانية وجود استجابات متنوعة. لتقييم أداء الذكاء الاصطناعي، استخدم الباحثون نماذج اللغة الكبيرة لقياس مدى تشابه الإجابات التي تولدها الذكاء الاصطناعي مع الردود البشرية.