تشهد أنظمة الروبوتات تطورًا كبيرًا بفضل النماذج اللغوية الكبيرة (LLMs)، كما أظهرت الأبحاث الأخيرة من Nvidia وجامعة بنسلفانيا وجامعة تكساس في أوستن. الدراسة تقدم تقنية DrEureka، التي تعد ثورية في أتمتة إنشاء دوال المكافأة وتوزيعات العشوائية لزيادة كفاءة الأنظمة الروبوتية. تعتمد DrEureka، المختصرة من Domain Randomization Eureka، على وصف عالي المستوى للمهمة وتفوق المكافآت التقليدية المصنعة بواسطة البشر في نقل السياسات المتعلمة من المحاكاة إلى التطبيقات الواقعية.
نقل الجاهزية من المحاكاة إلى الواقع
في مجال الروبوتات، يتم تدريب السياسات عادةً في بيئات محاكاة قبل نشرها في الواقع. يواجه نقل هذه السياسات المتعلمة تحديات، تُعرف عادةً بـ "فجوة المحاكاة والواقع"، مما يتطلب تعديلات مكثفة بين المحاكاة والظروف الفعلية. أظهرت التطورات الحديثة أن LLMs يمكن أن تستفيد من معرفتها الواسعة وقدراتها التحليلية، بالإضافة إلى محركات الفيزياء في المحاكيات الافتراضية، لتعلم مهارات حركية معقدة. يمكن أن تُنتج LLMs دوال مكافآت، وهي مكونات رئيسية توجه أنظمة التعلم المعزز، لتحديد تسلسلات العمل المثلى المطلوبة لإكمال المهام. ومع ذلك، يتطلب نقل السياسات المتعلمة إلى التطبيقات الحقيقية تعديلات كثيفة على دوال المكافآت ومعلمات المحاكاة.
حل DrEureka
تسعى DrEureka إلى تبسيط عملية نقل الجاهزية من المحاكاة إلى الواقع من خلال أتمتة تصميم دوال المكافآت ومعلمات العشوائية. بناءً على تقنية Eureka التي تم تقديمها في أكتوبر 2023، تستخدم DrEureka LLMs لإنشاء تطبيقات برمجية لدوال المكافآت استنادًا إلى أوصاف المهام. تُختبر هذه الدوال في المحاكيات، وتُستخدم النتائج لتوجيه التعديلات، مما يتيح تحسينًا متزامنًا لعشرات دوال المكافآت. بينما تسهل Eureka تدريب سياسات التعلم المعزز في البيئات المحاكاة، إلا أنها لا تعالج تعقيدات السيناريوهات الواقعية وتتطلب تدخلاً يدويًا في الانتقال من المحاكاة إلى الواقع. تعمل DrEureka على تحسين هذه العملية من خلال تكوين معلمات العشوائية تلقائيًا. تقدم أساليب العشوائية تنوعًا في المحاكاة، مما يمكّن سياسات التعلم المعزز من التكيف مع عدم اليقين في العالم الحقيقي. يتطلب اختيار المعلمات المناسبة تفكيرًا طبيعيًا في الفيزياء، مما يجعلها تحديًا مثاليًا لـ LLMs.
تنفيذ DrEureka
تتبنى DrEureka نهجًا متعدد الخطوات لتحسين دوال المكافآت والعشوائية في وقت واحد. في البداية، تنشئ LLM دوال المكافآت بناءً على تعليمات السلامة وأوصاف المهام. يستخدم النموذج هذه التعليمات لتطوير دالة مكافأة أولية، متعلمًا سياسة مشابهة لتلك التي اعتمدتها تقنية Eureka الأصلية. يقوم بعد ذلك بإجراء اختبارات لتحديد معلمات الفيزياء المثلى، مثل الاحتكاك والجاذبية، التي توجه اختيار تكوينات العشوائية. يتم إعادة تدريب السياسة مع هذه التكوينات، مما يعزز مرونتها ضد الضوضاء الواقعية. يصف الباحثون DrEureka بأنها "خط أنابيب مدفوع بنموذج لغوي لنقل الجاهزية مع تدخل بشري محدود."
نتائج الأداء
قيّمت الفريق DrEureka على منصات روبوتية رباعية الأرجل وذات دقة عالية. أظهرت النتائج أن سياسات الحركة الرباعية الأرجل التي تم تدريبها باستخدام DrEureka تفوقت بنسبة 34% على الأنظمة التقليدية من تصميم البشر في سرعة الحركة للأمام و20% في المسافة المقطوعة عبر تضاريس متنوعة. في اختبارات التعامل الدقيق، حققت أفضل سياسة تم تطويرها بواسطة DrEureka زيادة قدرها 300% في عدد دورات المكعب في فترة زمنية محددة مقارنة بالسياسات التي أنشأها البشر.
أحد التطبيقات المميزة لـ DrEureka كان يتمثل في روبوت-كلب يحقق التوازن ويجري على كرة اليوغا. نجح النموذج اللغوي في صياغة دوال مكافأة وتكوينات عشوائية سمحت بالأداء السلس في العالم الحقيقي، مع عدم الحاجة لأي تعديلات إضافية، وأظهر فعالية على مختلف الأسطح الداخلية والخارجية مع أقل دعم للسلامة. كشفت الدراسة أيضًا أن إدراج تعليمات السلامة في أوصاف المهام يؤثر بشكل كبير على التماسك المنطقي للتعليمات التي تنتجها LLM لنقل الجاهزية إلى الواقع.
"نعتقد أن DrEureka يظهر إمكانيات تسريع أبحاث تعلم الروبوتات من خلال أتمتة العناصر المعقدة في اكتساب المهارات منخفضة المستوى"، اختتم الباحثون.