تحقيق تقدمات حديثة في نماذج الرؤية واللغة (VLMs) تتيح مطابقة استفسارات اللغة الطبيعية مع الأجسام في المشاهد المرئية. يقوم الباحثون باستكشاف كيفية دمج هذه النماذج في أنظمة الروبوتات، التي غالبًا ما تواجه صعوبة في تعميم قدراتها.
ورقة بحثية رائدة من باحثين في Meta AI وجامعة نيويورك تقدم إطار عمل قائم على المعرفة المفتوحة يُسمى OK-Robot. يجمع هذا النظام المبتكر بين نماذج التعلم الآلي المدربة مسبقًا لأداء مهام في بيئات غير مألوفة، وخاصة لعمليات التقاط وإسقاط الأغراض دون الحاجة إلى تدريب إضافي.
تحديات أنظمة الروبوتات الحالية
تم تصميم معظم أنظمة الروبوتات لبيئات سبق لها مواجهتها، مما يحد من قدرتها على التكيف مع إعدادات جديدة، خصوصًا في المساحات غير المنظمة مثل المنازل. على الرغم من التقدم الملحوظ في مكونات مختلفة—مثل تفوق VLMs في ربط المحفزات اللغوية بالأجسام المرئية وتحسين مهارات الروبوتات في التنقل والإمساك—لا يزال دمج هذه التقنيات يؤدي إلى أداء دون المستوى الأمثل.
يشير الباحثون إلى أن "تقدم هذه المشكلة يتطلب إطار عمل دقيق ومرن يجمع بين VLMs والبرمجيات الروبوتية التقليدية، مع قدرة على دمج نماذج جديدة من مجتمع VLM والروبوتات".
نظرة عامة على OK-Robot
يجمع OK-Robot بين VLMs المتطورة وآليات الروبوت القوية لتنفيذ مهام التقاط وإسقاط الأغراض في بيئات غير مألوفة. يستخدم نماذج مدربة على مجموعات بيانات متاحة للجمهور بشكل واسع.
يتكون الإطار من ثلاثة أنظمة فرعية رئيسية: وحدة تنقل كائنات مفتوحة المفردات، وحدة الإمساك RGB-D، ونظام هيرستيك الإلقاء. عند الدخول إلى فضاء جديد، يتطلب OK-Robot مسحًا يدويًا يمكن إجراؤه بسهولة باستخدام تطبيق iPhone الذي يلتقط سلسلة من صور RGB-D أثناء تحرك المستخدم في المنطقة. تُستخدم هذه الصور، جنبًا إلى جنب مع موضع الكاميرا، لإنشاء خريطة ثلاثية الأبعاد للبيئة.
كل صورة تُعالج باستخدام نموذج تحويل الرؤية (ViT) لاستخراج معلومات الكائن. تُستخدم هذه البيانات، إلى جانب السياق البيئي، في وحدة ذاكرة الكائنات الدلالية، مما يسمح للنظام بالاستجابة لاستفسارات اللغة الطبيعية لاسترجاع الأجسام. تحسب الذاكرة تمثيلات المحفزات الصوتية وتطابقها مع أقرب تمثيل دلالي. بعد ذلك، ترسم خوارزميات التنقل المسار الأكثر كفاءة نحو الكائن، مما يضمن أن الروبوت لديه مساحة كافية للإمساك بالعنصر بأمان.
أخيرًا، يستخدم الروبوت كاميرا RGB-D مع نموذج تقسيم الكائنات ونموذج إمساك مدرب مسبقًا لالتقاط العنصر. تُطبق طريقة مشابهة للتنقل إلى نقطة الإلقاء. يُمكّن هذا النظام الروبوت من تحديد الإمساك الأنسب لمختلف أنواع الكائنات وإدارة مواقع الوجهات التي قد لا تكون مستوية.
"من دخول بيئة جديدة تمامًا إلى بدء العمليات الذاتية، يستغرق نظامنا أقل من 10 دقائق لإكمال أول مهمة التقاط وإسقاط"، يؤكد الباحثون.
الاختبارات والنتائج
قيم الباحثون OK-Robot في عشرة منازل، حيث أجروا 171 تجربة التقاط وإسقاط. نجح في إكمال العمليات بالكامل 58% من الوقت، مما يظهر قدرته على العمل بدون تدريب مباشر—أي أن النماذج لم تُدرّب بشكل صريح لهذه البيئات. من خلال تحسين استفسارات الإدخال، وتنظيف المساحات، وتقليل الأجسام المعاكسة، يمكن أن تتجاوز نسبة النجاح 82%.
على الرغم من إمكانياته، فإن OK-Robot له قيود. أحياناً يتجه نحو تطابق خاطئ بين المحفزات اللغوية والأجسام الصحيحة، ويواجه صعوبة مع بعض أساليب الإمساك، ويعاني من قيود في الأجهزة. علاوة على ذلك، تظل وحدة ذاكرة الكائنات ثابتة بعد المسح، مما يمنع الروبوت من التكيف مع التغييرات في موضع الكائنات أو توفرها.
على الرغم من هذه التحديات، يقدم مشروع OK-Robot رؤى مهمة. أولاً، يُظهر أن VLMs المفتوحة المفردات الحالية متفوقة في تحديد الكائنات المتنوعة في العالم الحقيقي والتنقل إليها عبر التعلم بدون تدريب. بالإضافة إلى ذلك، يؤكد أن النماذج الروبوتية المتخصصة المدربة مسبقًا على مجموعات بيانات كبيرة يمكن أن تسهل بسهولة الإمساك المفتوح المفردات في بيئات جديدة. أخيرًا، يبرز إمكانية دمج النماذج المدربة مسبقًا لتحقيق مهام بدون تدريب إضافي، مما يمهد الطريق لمزيد من التطورات في هذا المجال الناشئ.