نموذج التحكم الثوري للروبوتات من DeepMind وStanford ينفذ المهام بناءً على تعليمات تخطيطية

Home أخبار الذكاء الاصطناعي نموذج التحكم الثوري للروبوتات من DeepMind وStanford ينفذ المهام بناءً على تعليمات تخطيطية

Updated on مارس 11 2024

تشهد أنظمة الروبوتات تقدمًا ملحوظًا في قدرتها على تنفيذ التعليمات المستمدة من النصوص أو الصور، بفضل التطورات الأخيرة في نماذج اللغة والرؤية. ومع ذلك، لا تزال هذه الطرق تعاني من بعض القيود.

تظهر دراسة جديدة أجراها باحثون من جامعة ستانفورد و Google DeepMind إمكانية استخدام الرسومات التوضيحية كتعليمات للروبوتات. توفر الرسومات معلومات فضائية غنية تساعد الروبوتات على أداء المهام دون الارتباك الناتج عن تفاصيل الصور الواقعية أو غموض اللغة الطبيعية.

نموذج RT-Sketch

طور الباحثون نموذج RT-Sketch الذي يستخدم الرسومات للتحكم في الروبوتات. يتفوق هذا النموذج في الأداء على العملاء المعتمدين على اللغة والصور في الحالات القياسية ويتميز بالمزيد من الكفاءة في الحالات التي تعجز فيها التعليمات اللغوية والصورية.

لماذا اختيار الرسومات؟

بينما توفر اللغة وسيلة مباشرة لنقل الأهداف، يمكن أن تكون غير مريحة للمهام التي تتطلب تحكمًا دقيقًا، مثل ترتيب الأشياء. تُظهر الصور الأهداف المرغوبة بتفصيل، لكن الحصول على صورة هدف قد يكون غير عملي. كما أن الصور المسجلة مسبقًا قد تحتوي على تفاصيل مفرطة، مما يؤدي إلى عدم التكيف بشكل جيد مع البيئات الجديدة.

قالت بريا سونداريسان، طالبة الدكتوراه في جامعة ستانفورد والمعدة الرئيسية للدراسة: "فكرنا في تمكين الروبوتات من تفسير كتيبات التجميع، مثل مخططات IKEA، وتنفيذ التعديلات الضرورية. اللغة غالبًا ما تكون غامضة جدًا لمثل هذه المهام الفضائية، وقد لا تتوفر صور جاهزة."

اختار الفريق الرسومات لأنها بسيطة، وسهلة الإنتاج، وغنية بالمعلومات. تنقل الرسومات الترتيبات الفضائية بفعالية دون الحاجة إلى تفاصيل على مستوى البكسل، مما يسمح للنماذج بتحديد العناصر ذات الصلة بالمهام وتعزيز قدراتها على التعميم.

نموذج RT-Sketch

يبني نموذج RT-Sketch على نموذج Robotics Transformer 1 (RT-1)، الذي يترجم التعليمات اللغوية إلى أوامر للروبوت. قام الباحثون بتكييف هذه البنية لاستخدام الأهداف البصرية، بما في ذلك الرسومات والصور.

لتدريب RT-Sketch، استخدموا مجموعة بيانات RT-1 التي تضم 80,000 تسجيل لمهام التحكم عن بعد بتقنية VR مثل تحريك الأشياء وفتح الخزائن. في البداية، تم إنشاء رسومات توضيحية من هذه العروض عبر اختيار 500 مثال وإنتاج تمثيلات مرسومة يدويًا من إطارات الفيديو النهائية. استخدمت هذه الرسومات، إلى جانب الإطارات المقابلة، لتدريب شبكة تنافسية توليدية (GAN) لتحويل الصور إلى رسومات.

التدريب والوظائف

أنتجت شبكة GAN رسومات لتدريب نموذج RT-Sketch، الذي تم تعزيزه بمشتقات mimicking لأساليب الرسم اليدوي المختلفة. خلال التشغيل، يقبل النموذج صورة للمشهد ورسمًا تقريبيًا لترتيب العناصر المرغوب، وينتج سلسلة من الأوامر للروبوت لتحقيق الهدف المحدد.

قالت سونداريسان: "يكون RT-Sketch مفيدًا في المهام الفضائية حيث سيكون من المرهق إعطاء تعليمات شفهية تفصيلية أو عندما لا تكون صورة متاحة."

على سبيل المثال، قد تؤدي عملية إعداد طاولة العشاء إلى ارتباك مع تعبيرات مثل "ضع الأدوات بجانب الطبق"، مما ينتج عنه تفاعلات متعددة لتوضيح فهم النموذج.

تقييم RT-Sketch

اختبر الباحثون نموذج RT-Sketch عبر مجموعة متنوعة من السيناريوهات، مؤكدين ست مهارات تحكم مثل تحريك الأشياء، وضرب العلب، وفتح الأدراج. أظهر النموذج أداءً مقارنة بالنماذج الحالية المعتمدة على الصور واللغة في مهام التحكم الأساسية، وتفوق على النماذج القائمة على اللغة في السيناريوهات التي يصعب التعبير عن أهدافها.

الاتجاهات المستقبلية

يتطلع الباحثون إلى استكشاف تطبيقات أوسع للرسومات، محتملين دمجها مع أشكال أخرى مثل اللغة، والصور، وإيماءات البشر. تتبنى DeepMind عدة نماذج للروبوتات تستخدم أساليب متعددة الأنماط، وقد تعزز النتائج من نموذج RT-Sketch هذه الأنظمة. يُفكر الباحثون أيضًا في الإمكانيات المتنوعة للرسومات خارج نطاق التمثيل البصري.

اختتمت سونداريسان قائلة: "يمكن أن تنقل الرسومات الحركة بأسهم، وتمثل الأهداف الفرعية برسومات جزئية، وتوضح القيود بخربشات، مما يوفر معلومات قيمة للمهام التشغيلية التي لم نستكشفها بعد."

كايديم تؤمن 15 مليون دولار لتطوير حلول إنشاء الأصول ثلاثية الأبعاد المدعومة بالذكاء الاصطناعي

بايكا تعزز صانع الفيديو بتأثيرات صوتية عبر الذكاء الاصطناعي لتسهيل إنشاء محتوى جذاب

Most people like

SlidesPilot

241.7K

نقدم لكم مجموعة العروض التقديمية المدعومة بالذكاء الاصطناعي: أداتك المثالية لإنشاء شرائح بسلاسة اكتشف قوة تصميم الشرائح بلا عناء مع مجموعة العروض التقديمية بالذكاء الاصطناعي. هذه الأداة المبتكرة تسهل عملية إنشاء الشرائح، مما يمكنك من التركيز على تقديم عروض مؤثرة. وداعًا للتنسيق الممل ومرحبًا بالشرائح المصممة بشكل رائع في دقائق معدودة. ارتقِ بعروضك مع ميزات مدفوعة بالذكاء الاصطناعي تعزز سردك وتستقطب جمهورك كما لم يحدث من قبل!

مجموعة أدوات العروض التقديمية للذكاء الاصطناعي AI Presentation Generator

Junia AI

1.2M

في ظل المشهد الرقمي الحالي، يُعتبر إعداد محتوى SEO عميق أمرًا أساسيًا للتميز على الإنترنت. يقوم كتّاب الذكاء الاصطناعي بإحداث ثورة في طريقة تناولنا لإنشاء المحتوى، مما يسهل إنتاج مقالات عالية الجودة تجذب القراء وتعزز تصنيفات محركات البحث. من خلال استغلال قدرات الذكاء الاصطناعي، يمكنك توليد محتوى مُحسن يجذب الانتباه، ويعزز الرؤية، ويزيد من حركة المرور إلى موقعك. اكتشف كيف يمكن لكتّاب الذكاء الاصطناعي أن يرفعوا من استراتيجية محتواك ويساعدوك في تحقيق أهداف SEO الخاصة بك.

إنشاء محتوى الذكاء الاصطناعي AI SEO Assistant

Linguix

188.1K

يعمل Linguix على تحسين كتابتك من خلال فحص متقدم للقواعد الإملائية والنحوية، وإعادة صياغة النصوص بكفاءة، وتوفير مجموعة متنوعة من الميزات الإضافية المصممة لتلميع محتواك.

مساعد الكتابة Writing Assistants

Texthub

72.1K

اكتشف مساحة آمنة وخاصة للحوار المفعم بالحيوية. انضم إلى أفراد يشاركونك الأفكار وشارك شغفك دون أي قلق.

محادثات آمنة NSFW

Find AI tools in YBX