تفوقت تقنية DrEureka من Nvidia على الأداء البشري في تدريب أنظمة الروبوتات.

Home أخبار الذكاء الاصطناعي تفوقت تقنية DrEureka من Nvidia على الأداء البشري في تدريب أنظمة الروبوتات.

Updated on مايو 6 2024

تشهد أنظمة الروبوتات تطورًا كبيرًا بفضل النماذج اللغوية الكبيرة (LLMs)، كما أظهرت الأبحاث الأخيرة من Nvidia وجامعة بنسلفانيا وجامعة تكساس في أوستن. الدراسة تقدم تقنية DrEureka، التي تعد ثورية في أتمتة إنشاء دوال المكافأة وتوزيعات العشوائية لزيادة كفاءة الأنظمة الروبوتية. تعتمد DrEureka، المختصرة من Domain Randomization Eureka، على وصف عالي المستوى للمهمة وتفوق المكافآت التقليدية المصنعة بواسطة البشر في نقل السياسات المتعلمة من المحاكاة إلى التطبيقات الواقعية.

نقل الجاهزية من المحاكاة إلى الواقع

في مجال الروبوتات، يتم تدريب السياسات عادةً في بيئات محاكاة قبل نشرها في الواقع. يواجه نقل هذه السياسات المتعلمة تحديات، تُعرف عادةً بـ "فجوة المحاكاة والواقع"، مما يتطلب تعديلات مكثفة بين المحاكاة والظروف الفعلية. أظهرت التطورات الحديثة أن LLMs يمكن أن تستفيد من معرفتها الواسعة وقدراتها التحليلية، بالإضافة إلى محركات الفيزياء في المحاكيات الافتراضية، لتعلم مهارات حركية معقدة. يمكن أن تُنتج LLMs دوال مكافآت، وهي مكونات رئيسية توجه أنظمة التعلم المعزز، لتحديد تسلسلات العمل المثلى المطلوبة لإكمال المهام. ومع ذلك، يتطلب نقل السياسات المتعلمة إلى التطبيقات الحقيقية تعديلات كثيفة على دوال المكافآت ومعلمات المحاكاة.

حل DrEureka

تسعى DrEureka إلى تبسيط عملية نقل الجاهزية من المحاكاة إلى الواقع من خلال أتمتة تصميم دوال المكافآت ومعلمات العشوائية. بناءً على تقنية Eureka التي تم تقديمها في أكتوبر 2023، تستخدم DrEureka LLMs لإنشاء تطبيقات برمجية لدوال المكافآت استنادًا إلى أوصاف المهام. تُختبر هذه الدوال في المحاكيات، وتُستخدم النتائج لتوجيه التعديلات، مما يتيح تحسينًا متزامنًا لعشرات دوال المكافآت. بينما تسهل Eureka تدريب سياسات التعلم المعزز في البيئات المحاكاة، إلا أنها لا تعالج تعقيدات السيناريوهات الواقعية وتتطلب تدخلاً يدويًا في الانتقال من المحاكاة إلى الواقع. تعمل DrEureka على تحسين هذه العملية من خلال تكوين معلمات العشوائية تلقائيًا. تقدم أساليب العشوائية تنوعًا في المحاكاة، مما يمكّن سياسات التعلم المعزز من التكيف مع عدم اليقين في العالم الحقيقي. يتطلب اختيار المعلمات المناسبة تفكيرًا طبيعيًا في الفيزياء، مما يجعلها تحديًا مثاليًا لـ LLMs.

تنفيذ DrEureka

تتبنى DrEureka نهجًا متعدد الخطوات لتحسين دوال المكافآت والعشوائية في وقت واحد. في البداية، تنشئ LLM دوال المكافآت بناءً على تعليمات السلامة وأوصاف المهام. يستخدم النموذج هذه التعليمات لتطوير دالة مكافأة أولية، متعلمًا سياسة مشابهة لتلك التي اعتمدتها تقنية Eureka الأصلية. يقوم بعد ذلك بإجراء اختبارات لتحديد معلمات الفيزياء المثلى، مثل الاحتكاك والجاذبية، التي توجه اختيار تكوينات العشوائية. يتم إعادة تدريب السياسة مع هذه التكوينات، مما يعزز مرونتها ضد الضوضاء الواقعية. يصف الباحثون DrEureka بأنها "خط أنابيب مدفوع بنموذج لغوي لنقل الجاهزية مع تدخل بشري محدود."

نتائج الأداء

قيّمت الفريق DrEureka على منصات روبوتية رباعية الأرجل وذات دقة عالية. أظهرت النتائج أن سياسات الحركة الرباعية الأرجل التي تم تدريبها باستخدام DrEureka تفوقت بنسبة 34% على الأنظمة التقليدية من تصميم البشر في سرعة الحركة للأمام و20% في المسافة المقطوعة عبر تضاريس متنوعة. في اختبارات التعامل الدقيق، حققت أفضل سياسة تم تطويرها بواسطة DrEureka زيادة قدرها 300% في عدد دورات المكعب في فترة زمنية محددة مقارنة بالسياسات التي أنشأها البشر.

أحد التطبيقات المميزة لـ DrEureka كان يتمثل في روبوت-كلب يحقق التوازن ويجري على كرة اليوغا. نجح النموذج اللغوي في صياغة دوال مكافأة وتكوينات عشوائية سمحت بالأداء السلس في العالم الحقيقي، مع عدم الحاجة لأي تعديلات إضافية، وأظهر فعالية على مختلف الأسطح الداخلية والخارجية مع أقل دعم للسلامة. كشفت الدراسة أيضًا أن إدراج تعليمات السلامة في أوصاف المهام يؤثر بشكل كبير على التماسك المنطقي للتعليمات التي تنتجها LLM لنقل الجاهزية إلى الواقع.

"نعتقد أن DrEureka يظهر إمكانيات تسريع أبحاث تعلم الروبوتات من خلال أتمتة العناصر المعقدة في اكتساب المهارات منخفضة المستوى"، اختتم الباحثون.

دوكيوساين تستحوذ على مزود إدارة العقود المدعوم بالذكاء الاصطناعي "ليكسون" مقابل 165 مليون دولار لتعزيز منصة إدارة الهوية والوصول.

أوبن أي آي تتعاون مع ستاك أوفرفلو لتعزيز نماذج الذكاء الاصطناعي لتحقيق تميز في البرمجة

Most people like

PromptWise.ai

48.9K

ارتقِ بتجربتك مع ChatGPT من خلال استخدام مطالبات مصممة بإتقان. افتح إمكانيات الذكاء الاصطناعي الكاملة باستخدام مدخلات مختارة بعناية تعزز الإبداع والتفاعل.

الذكاء الاصطناعي AI Content Generator

DataVisor

49.4K

نقدم لكم منصة إدارة الاحتيال المدعومة بالذكاء الاصطناعي، المصممة خصيصًا للشركات لتخفيف المخاطر وحماية أصولها بشكل فعّال. هذه الحلول المبتكرة تستخدم خوارزميات متقدمة للكشف عن الأنشطة الاحتيالية ومنعها، مما يضمن بيئة آمنة لعمليات أعمالكم.

كشف الاحتيال Other

VoiceGenie

37.4K

تقديم "فويز جيني"، مساعد صوتي قوي مصمم لتسهيل التفاعل السلس مع أجهزتك وتطبيقاتك عبر الصوت. استمتع براحة التحكم بدون استخدام اليدين، مما يجعل المهام اليومية أسهل وأكثر كفاءة.

المساعد الصوتي AI Chatbot

Mapify: Transform anything to mind maps by AI, formerly Chatmind

1.5M

افتح آفاق إبداعك مع أداة الخرائط الذهنية المدعومة بالذكاء الاصطناعي مجانًا. ابدأ العصف الذهني بسهولة، نظم أفكارك، ومرر رؤى مبتكرة لتعزيز الإنتاجية والتعاون. سواء كنت تخطط لمشروع، تدرس، أو تولد أفكار جديدة، فهذا البرنامج سهل الاستخدام مصمم لمساعدتك على النجاح. ابدأ استكشاف الإمكانيات اللامتناهية اليوم!

خرائط ذهنية AI Mind Mapping

Find AI tools in YBX