OpenVLA: إطار مخصص للروبوتات مفتوح المصدر لتطبيقات متعددة الاستخدامات

Home أخبار الذكاء الاصطناعي OpenVLA: إطار مخصص للروبوتات مفتوح المصدر لتطبيقات متعددة الاستخدامات

Updated on يونيو 17 2024

نماذج الأساس والروبوتات: صعود OpenVLA

لقد حققت نماذج الأساس تقدمًا كبيرًا في مجال الروبوتات من خلال تسهيل تطوير نماذج الرؤية-اللغة-الفعل (VLA). تتميز هذه النماذج بقدرتها على التعميم لتشمل الأجسام والمشاهد والمهام التي تتجاوز بيانات التدريب الأولية. ومع ذلك، فإن اعتمادها كان محدودًا بسبب طبيعتها المغلقة ونقص الممارسات الأفضل للنشر والتكيف مع البيئات الجديدة.

تقديم OpenVLA

لمعالجة هذه التحديات، أطلق باحثون من جامعة ستانفورد، وجامعة كاليفورنيا في بيرkeley، ومعهد تويوتا للبحوث، وGoogle DeepMind، ومؤسسات أخرى، مشروع OpenVLA، وهو نموذج VLA مفتوح المصدر تم تدريبه على مجموعة متنوعة من عروض الروبوتات الحقيقية. يتفوق OpenVLA على النماذج الأخرى في مهام الروبوتات، كما يتيح ضبطًا دقيقًا سهلاً لتحسين الأداء في بيئات متعددة المهام مع مجموعة متنوعة من الأجسام. مصمم بكفاءة، يستخدم تقنيات تحسين للعمل على وحدات معالجة الرسوميات ذات المستوى الاستهلاكي مع تكاليف ضبط دقيقة منخفضة.

أهمية نماذج الرؤية-اللغة-الفعل

غالبًا ما تعاني طرق التلاعب التقليدية في الروبوتات من صعوبة التعميم خارج سيناريوهات التدريب الخاصة بها. وفي العادة تكون غير فعالة في مواجهة المشتتات أو الأجسام غير المرئية، وتواجه صعوبة في التكيّف مع تعليمات المهام المعدلة قليلاً. في المقابل، تتفوق نماذج اللغة الكبيرة (LLMs) ونماذج الرؤية-اللغة (VLMs) في التعميم بفضل مجموعات بيانات التدريب الواسعة التي تشمل الإنترنت. مؤخرًا، بدأت المختبرات البحثية في دمج LLMs و VLMs كعناصر أساسية لتطوير سياسات الروبوتات.

تشمل الطريقتان البارزتان استخدام LLMs و VLMs المدربة مسبقًا ضمن أنظمة معيارية لتخطيط وتنفيذ المهام، وبناء نماذج VLA من الصفر لتوليد إجراءات التحكم المباشرة للروبوتات. وقد وضعت أمثلة ملحوظة، مثل RT-2 و RT-2-X، معايير جديدة للسياسات العامة للروبوتات. ومع ذلك، تواجه نماذج VLA الحالية تحديين رئيسيين: هيكلها المغلق الذي يحد من الشفافية في التدريب ومزيج البيانات، وعدم وجود ممارسات معيارية لنشرها وتكييفها مع روبوتات ومهام جديدة. يؤكد الباحثون على الحاجة إلى نماذج VLA مفتوحة المصدر لتعزيز التكيف الفعّال، مما يعكس النظام البيئي المفتوح الموجود لنماذج اللغة.

هيكل OpenVLA

يتكون OpenVLA من 7 مليارات معلمة، ويعتمد على نموذج الرؤية-اللغة Prismatic-7B ويتضمن مشفرًا بصريًا ثنائي الجزء لاستخراج ميزات الصور، مصحوبًا بنموذج اللغة LLaMA-2 7B لمعالجة التعليمات. تم ضبطه بدقة على 970,000 مسار تلاعب بالروبوت من مجموعة بيانات Open-X Embodiment، ويغطي OpenVLA مجموعة واسعة من المهام والبيئات الروبوتية مع توليد رموز الإجراءات المرتبطة بإجراءات محددة للروبوت.

يتلقى OpenVLA تعليمات اللغة الطبيعية إلى جانب الصور المدخلة، ويحلل كلاهما لتحديد التسلسل الأمثل للإجراءات اللازمة لإتمام المهام مثل "مسح الطاولة". بشكل ملحوظ، يتفوق على نموذج RT-2-X الذي يحتوي على 55 مليار معلمة، والذي كان يعتبر الأفضل في تجسيدات WidowX وGoogle Robot.

التخصيص والكفاءة

استكشف الباحثون استراتيجيات ضبط دقيقة فعّالة عبر سبع مهام تلاعب، حيث أظهرت سياسات OpenVLA المخصصة تفوقها على البدائل المدربة مسبقًا، لا سيما عند تحويل تعليمات اللغة إلى سلوكيات متعددة المهام تتضمن أجسامًا متنوعة. يحقق OpenVLA نسبة نجاح تزيد عن 50% في جميع المهام المختبرة، مما يجعله خيارًا موثوقًا للتعلم عن طريق التقليد في سيناريوهات متنوعة.

في سعيهم لتحقيق الوصول والكفاءة، استخدم الفريق تقنية التكيف منخفض الرتبة (LoRA) للضبط الدقيق، محققًا تعديلات محددة للمهام في غضون 10-15 ساعة على وحدات معالجة الرسوميات A100، مما يمثل تخفيضًا كبيرًا في المتطلبات الحاسوبية. كما قللت عملية تقليل حجم النموذج من حجم النموذج، مما أتاح نشره على وحدات معالجة الرسوميات ذات المستوى الاستهلاكي دون المساس بالأداء.

إطلاق OpenVLA كمصدر مفتوح

قام الباحثون بإطلاق نموذج OpenVLA بالكامل كمصدر مفتوح، إلى جانب دفاتر ملاحظات التعليم ونشر الرموز لتدريب VLA القابل للتوسع. يتوقعون أن تحفز هذه الموارد المزيد من الاستكشاف والتكيف لنماذج VLA في مجال الروبوتات. تدعم المكتبة الضبط الدقيق على وحدات معالجة الرسوميات الفردية ويمكنها تنظيم تدريب VLA بقدر مليار معلمة عبر مجموعات متعددة وحدات معالجة الرسوميات، بما يتماشى مع تقنيات التحسين والتوازي الحديثة.

تسعى التطورات المستقبلية لـ OpenVLA إلى دمج مدخلات متعددة من الصور والإدراك الذاتي، إلى جانب تاريخ الملاحظات. علاوة على ذلك، قد يؤدي الاستفادة من VLMs المدربة مسبقًا على بيانات متداخلة من الصور والنصوص إلى تعزيز مرونة ضبط VLA.

مع OpenVLA، تقف مجتمع الروبوتات على أعتاب تقدم ملحوظ، مما يجعل نماذج VLA أكثر وصولاً وملاءمة للتطبيقات المتنوعة.

ديكاجون تكشف عن وكلاء ذكاء اصطناعي "شبيهين بالبشر" لثورة دعم العملاء في المؤسسات بعد فترة من التكتّم

أوجي ستوديو: ثورة في إنشاء الفيديوهات بالذكاء الاصطناعي للماركينغ والشركات مثل كانفا

Most people like

Lempod

38.4K

فتح قوة الذكاء الاصطناعي: عزز تفاعلك على لينكدإن وزد من ظهور منشوراتك بسهولة.

أتمتة لينكدإن AI Social Media Assistant

ChatBotKit

37.4K

تشات بوت كيت هي منصة مبتكرة مصممة لإنشاء ونشر بوتات محادثة بديهية تهدف إلى تعزيز تفاعل المستخدمين.

دردشة AI Chatbot

Writing.io

25.2K

أنشئ وشارك محتوى مذهل بسهولة مع Writing.io. أطلق العنان لإبداعك وارتقِ بتجربة الكتابة لديك اليوم!

كتابة AI Content Generator

Invisible Technologies

50.9K

تتخصص تقنيات إنف-visible في حلول البرمجيات المتطورة المصممة لتعزيز التواصل وزيادة الإنتاجية. تمكّن أدواتنا المبتكرة الشركات من تبسيط سير العمل وتحسين التعاون بسلاسة.

تكنولوجيا AI Advertising Assistant

Find AI tools in YBX