تعرف على Alter3: الروبوت البشري المتقدم المدعوم من GPT-4

طور الباحثون في جامعة طوكيو وشركة Alternative Machine نظام روبوتات إنسانية يُدعى Alter3، قادر على تحويل الأوامر اللغوية الطبيعية مباشرة إلى أفعال روبوتية. من خلال الاستفادة من المعرفة الواسعة الموجودة في نماذج اللغة الكبيرة (LLMs) مثل GPT-4، يمكن لـ Alter3 تنفيذ مهام معقدة مثل التقاط صور سيلفي أو تقليد كائنات مثل الأشباح.

تُعد هذه الابتكار تقدمًا كبيرًا في دمج النماذج الأساسية مع أنظمة الروبوتات. وبينما لا يزال الحل التجاري القابل للتوسع بعيد المنال، فقد حفزت التقدمات الأخيرة البحث في مجال الروبوتات وأظهرت إمكانيات كبيرة.

تحويل اللغة إلى أفعال روبوتية

يستخدم Alter3 نموذج GPT-4 كنموذج أساسي، معالجًا التعليمات اللغوية الطبيعية التي تصف الأفعال أو السيناريوهات التي يجب على الروبوت الاستجابة لها. يقوم النموذج بتوظيف "إطار عمل وكيل" لوضع سلسلة من خطوات العمل اللازمة لتحقيق الهدف المحدد، حيث يعمل في البداية كمنظم، محددًا التسلسل اللازم للمهام المرغوبة.

يستخدم Alter3 مجموعة متنوعة من تنسيقات مطالبات GPT-4 لتحليل التعليمات وتحويلها إلى أوامر للروبوت. نظرًا لافتقار GPT-4 إلى تدريب محدد على أوامر برمجة Alter3، يستغل الباحثون تعلمه ضمن السياق لتكييف مخرجاته مع واجهة برمجة التطبيقات (API) الخاصة بالروبوت. يتضمن ذلك تقديم قائمة بالأوامر وأمثلة توضيحية لاستخدامها، مما يسمح للنموذج بترجمة كل خطوة فعلية إلى أوامر API قابلة للتنفيذ للروبوت.

“في السابق، كنا نتحكم يدويًا في جميع المحاور الـ 43 بترتيب معين لتكرار وضعيات الإنسان أو محاكاة أفعال مثل تقديم الشاي أو لعب الشطرنج”، كما أشار الباحثون. “مع نماذج اللغة الكبيرة، تحررنا من هذه العملية الجهدية.”

دمج التغذية الراجعة الإنسانية

نظرًا لأن اللغة قد تكون غير دقيقة في وصف الحركات الجسدية، قد لا تنتج تسلسلات الأفعال التي ينشئها النموذج دائمًا السلوك الروبوتي المقصود. لمعالجة ذلك، قام الباحثون بإدماج آلية للتغذية الراجعة تمكن المستخدمين من تحسين الأوامر، مثل "ارفع ذراعك قليلاً أكثر". يتم معالجة هذه التصحيحات بواسطة وكيل GPT-4 آخر، مما يضبط الكود ويعيد تسلسل الأفعال المعدل لتنفيذه بواسطة الروبوت. تُخزن الخطط والكود المحسّن للاستخدام مستقبلاً.

إن دمج التغذية الراجعة الإنسانية والذاكرة يعزز بشكل كبير من أداء Alter3. قام الباحثون بتقييم الروبوت عبر مجموعة متنوعة من المهام، من الأفعال البسيطة مثل التقاط صور السيلفي واحتساء الشاي إلى تقليد أكثر تعقيدًا مثل تصرف ككائن شبح أو ثعبان. كما أظهر النموذج قدرته على إدارة السيناريوهات التي تتطلب تخطيطًا معقدًا.

“تشمل تدريبات نموذج اللغة الكبيرة تمثيلات لغوية متنوعة للحركات. يترجم GPT-4 هذه بدقة إلى أوامر لـ Alter3”، كما يشرح الفريق.

مع الفهم الواسع لـ GPT-4 للسلوك البشري، يمكنه بفاعلية توليد خطط سلوكية واقعية للروبوتات الإنسانية. في التجارب، تمكن الفريق أيضًا من منح Alter3 تعبيرات عاطفية مثل الإحراج والفرح.

“حتى من النصوص التي لا تشير صراحة إلى مؤشرات عاطفية، يمكن للنموذج أن يستنتج المشاعر المناسبة، ويعكسها في استجابة Alter3 الجسدية”، كما أبرز الباحثون.

تقدم في نماذج الروبوتات

تحقق اعتماد النماذج الأساسية في أبحاث الروبوتات تقدمًا سريعًا. على سبيل المثال، تستخدم شركة Figure، التي تبلغ قيمتها 2.6 مليار دولار، نماذج OpenAI لتفسير الأوامر البشرية وتنفيذ الأفعال المقابلة في العالم الحقيقي. مع ظهور القدرات متعددة الوسائط في النماذج الأساسية، تُبشر أنظمة الروبوتات بتحسين قدراتها على التفكير البيئي واتخاذ القرارات.

يُعد Alter3 تجسيدًا للاتجاه الذي تستخدم فيه النماذج الأساسية الجاهزة كأدوات تفكير وتخطيط ضمن أنظمة التحكم في الروبوتات. من المهم أنه لا يعتمد على إصدار مُعدّل من GPT-4، مما يسمح بتطبيق رموزه على روبوتات إنسانية أخرى.

تستخدم مشاريع مثل RT-2-X وOpenVLA نماذج أساسية متخصصة مصممة لإنتاج أوامر روبوتات مباشرة. بينما غالبًا ما تنتج هذه النماذج نتائج أكثر استقرارًا وتعميمًا عبر مهام وبيئات متنوعة، إلا أنها تتطلب خبرة تقنية أعلى وتكاليف تطوير مرتفعة.

مع ذلك، يبقى أحد الجوانب الرئيسية التي يتم تجاهلها في هذه المبادرات هو التحدي الأساسي المتمثل في تمكين الروبوتات من القيام بالمهام الأساسية، بما في ذلك الإمساك بالأشياء، والحفاظ على التوازن، والتنقل في البيئات. "يحدث قدر كبير من العمل على مستوى أدنى مما تعالجه هذه النماذج"، كما أفاد عالم الذكاء الاصطناعي والروبوتات كريس باكستون في مقابلة حديثة. "هذا جزء من العمل التحدي، في الغالب بسبب نقص البيانات المتاحة."

Most people like

Find AI tools in YBX