نموذج التحكم الثوري للروبوتات من DeepMind وStanford ينفذ المهام بناءً على تعليمات تخطيطية

تشهد أنظمة الروبوتات تقدمًا ملحوظًا في قدرتها على تنفيذ التعليمات المستمدة من النصوص أو الصور، بفضل التطورات الأخيرة في نماذج اللغة والرؤية. ومع ذلك، لا تزال هذه الطرق تعاني من بعض القيود.

تظهر دراسة جديدة أجراها باحثون من جامعة ستانفورد و Google DeepMind إمكانية استخدام الرسومات التوضيحية كتعليمات للروبوتات. توفر الرسومات معلومات فضائية غنية تساعد الروبوتات على أداء المهام دون الارتباك الناتج عن تفاصيل الصور الواقعية أو غموض اللغة الطبيعية.

نموذج RT-Sketch

طور الباحثون نموذج RT-Sketch الذي يستخدم الرسومات للتحكم في الروبوتات. يتفوق هذا النموذج في الأداء على العملاء المعتمدين على اللغة والصور في الحالات القياسية ويتميز بالمزيد من الكفاءة في الحالات التي تعجز فيها التعليمات اللغوية والصورية.

لماذا اختيار الرسومات؟

بينما توفر اللغة وسيلة مباشرة لنقل الأهداف، يمكن أن تكون غير مريحة للمهام التي تتطلب تحكمًا دقيقًا، مثل ترتيب الأشياء. تُظهر الصور الأهداف المرغوبة بتفصيل، لكن الحصول على صورة هدف قد يكون غير عملي. كما أن الصور المسجلة مسبقًا قد تحتوي على تفاصيل مفرطة، مما يؤدي إلى عدم التكيف بشكل جيد مع البيئات الجديدة.

قالت بريا سونداريسان، طالبة الدكتوراه في جامعة ستانفورد والمعدة الرئيسية للدراسة: "فكرنا في تمكين الروبوتات من تفسير كتيبات التجميع، مثل مخططات IKEA، وتنفيذ التعديلات الضرورية. اللغة غالبًا ما تكون غامضة جدًا لمثل هذه المهام الفضائية، وقد لا تتوفر صور جاهزة."

اختار الفريق الرسومات لأنها بسيطة، وسهلة الإنتاج، وغنية بالمعلومات. تنقل الرسومات الترتيبات الفضائية بفعالية دون الحاجة إلى تفاصيل على مستوى البكسل، مما يسمح للنماذج بتحديد العناصر ذات الصلة بالمهام وتعزيز قدراتها على التعميم.

نموذج RT-Sketch

يبني نموذج RT-Sketch على نموذج Robotics Transformer 1 (RT-1)، الذي يترجم التعليمات اللغوية إلى أوامر للروبوت. قام الباحثون بتكييف هذه البنية لاستخدام الأهداف البصرية، بما في ذلك الرسومات والصور.

لتدريب RT-Sketch، استخدموا مجموعة بيانات RT-1 التي تضم 80,000 تسجيل لمهام التحكم عن بعد بتقنية VR مثل تحريك الأشياء وفتح الخزائن. في البداية، تم إنشاء رسومات توضيحية من هذه العروض عبر اختيار 500 مثال وإنتاج تمثيلات مرسومة يدويًا من إطارات الفيديو النهائية. استخدمت هذه الرسومات، إلى جانب الإطارات المقابلة، لتدريب شبكة تنافسية توليدية (GAN) لتحويل الصور إلى رسومات.

التدريب والوظائف

أنتجت شبكة GAN رسومات لتدريب نموذج RT-Sketch، الذي تم تعزيزه بمشتقات mimicking لأساليب الرسم اليدوي المختلفة. خلال التشغيل، يقبل النموذج صورة للمشهد ورسمًا تقريبيًا لترتيب العناصر المرغوب، وينتج سلسلة من الأوامر للروبوت لتحقيق الهدف المحدد.

قالت سونداريسان: "يكون RT-Sketch مفيدًا في المهام الفضائية حيث سيكون من المرهق إعطاء تعليمات شفهية تفصيلية أو عندما لا تكون صورة متاحة."

على سبيل المثال، قد تؤدي عملية إعداد طاولة العشاء إلى ارتباك مع تعبيرات مثل "ضع الأدوات بجانب الطبق"، مما ينتج عنه تفاعلات متعددة لتوضيح فهم النموذج.

تقييم RT-Sketch

اختبر الباحثون نموذج RT-Sketch عبر مجموعة متنوعة من السيناريوهات، مؤكدين ست مهارات تحكم مثل تحريك الأشياء، وضرب العلب، وفتح الأدراج. أظهر النموذج أداءً مقارنة بالنماذج الحالية المعتمدة على الصور واللغة في مهام التحكم الأساسية، وتفوق على النماذج القائمة على اللغة في السيناريوهات التي يصعب التعبير عن أهدافها.

الاتجاهات المستقبلية

يتطلع الباحثون إلى استكشاف تطبيقات أوسع للرسومات، محتملين دمجها مع أشكال أخرى مثل اللغة، والصور، وإيماءات البشر. تتبنى DeepMind عدة نماذج للروبوتات تستخدم أساليب متعددة الأنماط، وقد تعزز النتائج من نموذج RT-Sketch هذه الأنظمة. يُفكر الباحثون أيضًا في الإمكانيات المتنوعة للرسومات خارج نطاق التمثيل البصري.

اختتمت سونداريسان قائلة: "يمكن أن تنقل الرسومات الحركة بأسهم، وتمثل الأهداف الفرعية برسومات جزئية، وتوضح القيود بخربشات، مما يوفر معلومات قيمة للمهام التشغيلية التي لم نستكشفها بعد."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles