روبوت OK من ميتا يحقق القدرة على الاختيار والإفلات بدون تدريب في بيئات غير مدربة

Home أخبار الذكاء الاصطناعي روبوت OK من ميتا يحقق القدرة على الاختيار والإفلات بدون تدريب في بيئات غير مدربة

Updated on يناير 29 2024

تحقيق تقدمات حديثة في نماذج الرؤية واللغة (VLMs) تتيح مطابقة استفسارات اللغة الطبيعية مع الأجسام في المشاهد المرئية. يقوم الباحثون باستكشاف كيفية دمج هذه النماذج في أنظمة الروبوتات، التي غالبًا ما تواجه صعوبة في تعميم قدراتها.

ورقة بحثية رائدة من باحثين في Meta AI وجامعة نيويورك تقدم إطار عمل قائم على المعرفة المفتوحة يُسمى OK-Robot. يجمع هذا النظام المبتكر بين نماذج التعلم الآلي المدربة مسبقًا لأداء مهام في بيئات غير مألوفة، وخاصة لعمليات التقاط وإسقاط الأغراض دون الحاجة إلى تدريب إضافي.

تحديات أنظمة الروبوتات الحالية

تم تصميم معظم أنظمة الروبوتات لبيئات سبق لها مواجهتها، مما يحد من قدرتها على التكيف مع إعدادات جديدة، خصوصًا في المساحات غير المنظمة مثل المنازل. على الرغم من التقدم الملحوظ في مكونات مختلفة—مثل تفوق VLMs في ربط المحفزات اللغوية بالأجسام المرئية وتحسين مهارات الروبوتات في التنقل والإمساك—لا يزال دمج هذه التقنيات يؤدي إلى أداء دون المستوى الأمثل.

يشير الباحثون إلى أن "تقدم هذه المشكلة يتطلب إطار عمل دقيق ومرن يجمع بين VLMs والبرمجيات الروبوتية التقليدية، مع قدرة على دمج نماذج جديدة من مجتمع VLM والروبوتات".

نظرة عامة على OK-Robot

يجمع OK-Robot بين VLMs المتطورة وآليات الروبوت القوية لتنفيذ مهام التقاط وإسقاط الأغراض في بيئات غير مألوفة. يستخدم نماذج مدربة على مجموعات بيانات متاحة للجمهور بشكل واسع.

يتكون الإطار من ثلاثة أنظمة فرعية رئيسية: وحدة تنقل كائنات مفتوحة المفردات، وحدة الإمساك RGB-D، ونظام هيرستيك الإلقاء. عند الدخول إلى فضاء جديد، يتطلب OK-Robot مسحًا يدويًا يمكن إجراؤه بسهولة باستخدام تطبيق iPhone الذي يلتقط سلسلة من صور RGB-D أثناء تحرك المستخدم في المنطقة. تُستخدم هذه الصور، جنبًا إلى جنب مع موضع الكاميرا، لإنشاء خريطة ثلاثية الأبعاد للبيئة.

كل صورة تُعالج باستخدام نموذج تحويل الرؤية (ViT) لاستخراج معلومات الكائن. تُستخدم هذه البيانات، إلى جانب السياق البيئي، في وحدة ذاكرة الكائنات الدلالية، مما يسمح للنظام بالاستجابة لاستفسارات اللغة الطبيعية لاسترجاع الأجسام. تحسب الذاكرة تمثيلات المحفزات الصوتية وتطابقها مع أقرب تمثيل دلالي. بعد ذلك، ترسم خوارزميات التنقل المسار الأكثر كفاءة نحو الكائن، مما يضمن أن الروبوت لديه مساحة كافية للإمساك بالعنصر بأمان.

أخيرًا، يستخدم الروبوت كاميرا RGB-D مع نموذج تقسيم الكائنات ونموذج إمساك مدرب مسبقًا لالتقاط العنصر. تُطبق طريقة مشابهة للتنقل إلى نقطة الإلقاء. يُمكّن هذا النظام الروبوت من تحديد الإمساك الأنسب لمختلف أنواع الكائنات وإدارة مواقع الوجهات التي قد لا تكون مستوية.

"من دخول بيئة جديدة تمامًا إلى بدء العمليات الذاتية، يستغرق نظامنا أقل من 10 دقائق لإكمال أول مهمة التقاط وإسقاط"، يؤكد الباحثون.

الاختبارات والنتائج

قيم الباحثون OK-Robot في عشرة منازل، حيث أجروا 171 تجربة التقاط وإسقاط. نجح في إكمال العمليات بالكامل 58% من الوقت، مما يظهر قدرته على العمل بدون تدريب مباشر—أي أن النماذج لم تُدرّب بشكل صريح لهذه البيئات. من خلال تحسين استفسارات الإدخال، وتنظيف المساحات، وتقليل الأجسام المعاكسة، يمكن أن تتجاوز نسبة النجاح 82%.

على الرغم من إمكانياته، فإن OK-Robot له قيود. أحياناً يتجه نحو تطابق خاطئ بين المحفزات اللغوية والأجسام الصحيحة، ويواجه صعوبة مع بعض أساليب الإمساك، ويعاني من قيود في الأجهزة. علاوة على ذلك، تظل وحدة ذاكرة الكائنات ثابتة بعد المسح، مما يمنع الروبوت من التكيف مع التغييرات في موضع الكائنات أو توفرها.

على الرغم من هذه التحديات، يقدم مشروع OK-Robot رؤى مهمة. أولاً، يُظهر أن VLMs المفتوحة المفردات الحالية متفوقة في تحديد الكائنات المتنوعة في العالم الحقيقي والتنقل إليها عبر التعلم بدون تدريب. بالإضافة إلى ذلك، يؤكد أن النماذج الروبوتية المتخصصة المدربة مسبقًا على مجموعات بيانات كبيرة يمكن أن تسهل بسهولة الإمساك المفتوح المفردات في بيئات جديدة. أخيرًا، يبرز إمكانية دمج النماذج المدربة مسبقًا لتحقيق مهام بدون تدريب إضافي، مما يمهد الطريق لمزيد من التطورات في هذا المجال الناشئ.

سيمرون تؤمن تمويلًا بقيمة 7.9 مليون دولار لتطوير تقنية رقائق الذكاء الاصطناعي ثلاثية الأبعاد المتقدمة

أداة تسميم الذكاء الاصطناعي "Nightshade" تتجاوز 250,000 عملية تحميل في غضون 5 أيام فقط: "تفوق توقعاتنا بشكل غير مسبوق"

Most people like

Voilà

194.7K

نقدم لكم Voilà، مساعد متصفح الذكاء الاصطناعي النهائي الذي يهدف إلى تعزيز الإنتاجية وتحسين المساعدة الافتراضية. استمتع بدعم سلس يرفع من مستوى مهامك عبر الإنترنت ويسهل سير العمل لديك.

مساعد الذكاء الاصطناعي ChatGPT Writing Assistants

SwiftERM

11.6K

في عالم التجارة الإلكترونية الديناميكي، يعد التميز أمرًا ضروريًا للنجاح. هنا يأتي دور برامج التخصيص المدعومة بالذكاء الاصطناعي، المصممة لتفصيل تجربة التسوق وفقًا لتفضيلات كل عميل. من خلال الاستفادة من الخوارزميات المتقدمة ورؤى البيانات، تعزز هذه الحلول السحابية تفاعل العملاء، وتزيد من معدلات التحويل، وتعزز ولاء العلامة التجارية. اكتشف كيف يمكن أن تحدث دمج التخصيص بالذكاء الاصطناعي ثورة في متجرك الإلكتروني وترتقي بأداء مبيعاتك.

تخصيص الذكاء الاصطناعي Other

Typeface

55.6K

فتح إمكانيات الذكاء الاصطناعي المنشئ يمكّن الشركات من إنتاج محتوى عالي الجودة وبما يتماشى مع العلامة التجارية بسرعة، مما يبرز في مشهد المنافسة اليوم.

الذكاء الاصطناعي التوليدي AI Content Generator

Quiz Wizard

19.2K

Quiz Wizard هي منصة مبتكرة مدفوعة بالذكاء الاصطناعي مصممة لإنشاء أسئلة متعددة الخيارات (MCQs) مخصصة وموارد دراسية مفصلة.

الذكاء الاصطناعي AI Education Assistant

Find AI tools in YBX