نماذج الأساس والروبوتات: صعود OpenVLA
لقد حققت نماذج الأساس تقدمًا كبيرًا في مجال الروبوتات من خلال تسهيل تطوير نماذج الرؤية-اللغة-الفعل (VLA). تتميز هذه النماذج بقدرتها على التعميم لتشمل الأجسام والمشاهد والمهام التي تتجاوز بيانات التدريب الأولية. ومع ذلك، فإن اعتمادها كان محدودًا بسبب طبيعتها المغلقة ونقص الممارسات الأفضل للنشر والتكيف مع البيئات الجديدة.
تقديم OpenVLA
لمعالجة هذه التحديات، أطلق باحثون من جامعة ستانفورد، وجامعة كاليفورنيا في بيرkeley، ومعهد تويوتا للبحوث، وGoogle DeepMind، ومؤسسات أخرى، مشروع OpenVLA، وهو نموذج VLA مفتوح المصدر تم تدريبه على مجموعة متنوعة من عروض الروبوتات الحقيقية. يتفوق OpenVLA على النماذج الأخرى في مهام الروبوتات، كما يتيح ضبطًا دقيقًا سهلاً لتحسين الأداء في بيئات متعددة المهام مع مجموعة متنوعة من الأجسام. مصمم بكفاءة، يستخدم تقنيات تحسين للعمل على وحدات معالجة الرسوميات ذات المستوى الاستهلاكي مع تكاليف ضبط دقيقة منخفضة.
أهمية نماذج الرؤية-اللغة-الفعل
غالبًا ما تعاني طرق التلاعب التقليدية في الروبوتات من صعوبة التعميم خارج سيناريوهات التدريب الخاصة بها. وفي العادة تكون غير فعالة في مواجهة المشتتات أو الأجسام غير المرئية، وتواجه صعوبة في التكيّف مع تعليمات المهام المعدلة قليلاً. في المقابل، تتفوق نماذج اللغة الكبيرة (LLMs) ونماذج الرؤية-اللغة (VLMs) في التعميم بفضل مجموعات بيانات التدريب الواسعة التي تشمل الإنترنت. مؤخرًا، بدأت المختبرات البحثية في دمج LLMs و VLMs كعناصر أساسية لتطوير سياسات الروبوتات.
تشمل الطريقتان البارزتان استخدام LLMs و VLMs المدربة مسبقًا ضمن أنظمة معيارية لتخطيط وتنفيذ المهام، وبناء نماذج VLA من الصفر لتوليد إجراءات التحكم المباشرة للروبوتات. وقد وضعت أمثلة ملحوظة، مثل RT-2 و RT-2-X، معايير جديدة للسياسات العامة للروبوتات. ومع ذلك، تواجه نماذج VLA الحالية تحديين رئيسيين: هيكلها المغلق الذي يحد من الشفافية في التدريب ومزيج البيانات، وعدم وجود ممارسات معيارية لنشرها وتكييفها مع روبوتات ومهام جديدة. يؤكد الباحثون على الحاجة إلى نماذج VLA مفتوحة المصدر لتعزيز التكيف الفعّال، مما يعكس النظام البيئي المفتوح الموجود لنماذج اللغة.
هيكل OpenVLA
يتكون OpenVLA من 7 مليارات معلمة، ويعتمد على نموذج الرؤية-اللغة Prismatic-7B ويتضمن مشفرًا بصريًا ثنائي الجزء لاستخراج ميزات الصور، مصحوبًا بنموذج اللغة LLaMA-2 7B لمعالجة التعليمات. تم ضبطه بدقة على 970,000 مسار تلاعب بالروبوت من مجموعة بيانات Open-X Embodiment، ويغطي OpenVLA مجموعة واسعة من المهام والبيئات الروبوتية مع توليد رموز الإجراءات المرتبطة بإجراءات محددة للروبوت.
يتلقى OpenVLA تعليمات اللغة الطبيعية إلى جانب الصور المدخلة، ويحلل كلاهما لتحديد التسلسل الأمثل للإجراءات اللازمة لإتمام المهام مثل "مسح الطاولة". بشكل ملحوظ، يتفوق على نموذج RT-2-X الذي يحتوي على 55 مليار معلمة، والذي كان يعتبر الأفضل في تجسيدات WidowX وGoogle Robot.
التخصيص والكفاءة
استكشف الباحثون استراتيجيات ضبط دقيقة فعّالة عبر سبع مهام تلاعب، حيث أظهرت سياسات OpenVLA المخصصة تفوقها على البدائل المدربة مسبقًا، لا سيما عند تحويل تعليمات اللغة إلى سلوكيات متعددة المهام تتضمن أجسامًا متنوعة. يحقق OpenVLA نسبة نجاح تزيد عن 50% في جميع المهام المختبرة، مما يجعله خيارًا موثوقًا للتعلم عن طريق التقليد في سيناريوهات متنوعة.
في سعيهم لتحقيق الوصول والكفاءة، استخدم الفريق تقنية التكيف منخفض الرتبة (LoRA) للضبط الدقيق، محققًا تعديلات محددة للمهام في غضون 10-15 ساعة على وحدات معالجة الرسوميات A100، مما يمثل تخفيضًا كبيرًا في المتطلبات الحاسوبية. كما قللت عملية تقليل حجم النموذج من حجم النموذج، مما أتاح نشره على وحدات معالجة الرسوميات ذات المستوى الاستهلاكي دون المساس بالأداء.
إطلاق OpenVLA كمصدر مفتوح
قام الباحثون بإطلاق نموذج OpenVLA بالكامل كمصدر مفتوح، إلى جانب دفاتر ملاحظات التعليم ونشر الرموز لتدريب VLA القابل للتوسع. يتوقعون أن تحفز هذه الموارد المزيد من الاستكشاف والتكيف لنماذج VLA في مجال الروبوتات. تدعم المكتبة الضبط الدقيق على وحدات معالجة الرسوميات الفردية ويمكنها تنظيم تدريب VLA بقدر مليار معلمة عبر مجموعات متعددة وحدات معالجة الرسوميات، بما يتماشى مع تقنيات التحسين والتوازي الحديثة.
تسعى التطورات المستقبلية لـ OpenVLA إلى دمج مدخلات متعددة من الصور والإدراك الذاتي، إلى جانب تاريخ الملاحظات. علاوة على ذلك، قد يؤدي الاستفادة من VLMs المدربة مسبقًا على بيانات متداخلة من الصور والنصوص إلى تعزيز مرونة ضبط VLA.
مع OpenVLA، تقف مجتمع الروبوتات على أعتاب تقدم ملحوظ، مما يجعل نماذج VLA أكثر وصولاً وملاءمة للتطبيقات المتنوعة.