يستخدم البشر بشكل متكرر سلوكيات تعبيرية للتعبير عن الأهداف والنوايا. على سبيل المثال، نُومئ برؤوسنا لتحية زميل عمل، ونهزها للدلالة على عدم الموافقة، أو نقول "آسف" لنتمكن من المرور عبر حشد. لتسهيل التفاعلات السلسة مع البشر، يجب على الروبوتات المتنقلة أيضًا أن تظهر سلوكيات تعبيرية مشابهة. ومع ذلك، لا تزال هذه التحديات كبيرة في مجال الروبوتات، وغالبًا ما تفتقر الحلول الموجودة إلى المرونة والقابلية للتكيف.
قدمت دراسة رائدة من باحثين من جامعة تورنتو وGoogle DeepMind وHoku Labs تقنية جديدة تُسمى GenEM، التي تستخدم السياقات الاجتماعية الواسعة الموجودة في نماذج اللغة الكبيرة (LLMs) لتمكين الروبوتات من تنفيذ سلوكيات تعبيرية. من خلال استخدام أساليب تحفيز متنوعة، يتيح GenEM للروبوتات تفسير بيئتها وتكرار التعبيرات البشرية بشكل فعال.
السلوكيات التعبيرية في الروبوتات
تقليديًا، كان إنشاء سلوكيات تعبيرية للروبوت يتطلب أنظمة قائمة على القواعد أو القوالب، مما يتطلب إدخالاً يدويًا كبيرًا لكل روبوت وبيئة. تعني هذه الصلابة أن أي تغييرات أو تعديلات تستلزم إعادة برمجة شاملة. في حين أن التقنيات الحديثة قد اتجهت نحو أساليب قائمة على البيانات تقدم مرونة أكبر، إلا أن هذه الأساليب تحتاج غالبًا إلى مجموعات بيانات متخصصة تتناسب مع تفاعلات كل روبوت.
يُعيد GenEM تشكيل هذا النهج من خلال الاستفادة من المعرفة الغنية الموجودة في LLMs لتوليد سلوكيات تعبيرية بشكل ديناميكي، مما يلغي الحاجة إلى تدريب تقليدي للنموذج أو مجموعات قواعد معقدة. على سبيل المثال، يمكن لـ LLMs التعرف على أهمية الاتصال بالعين أو الإيماء في سياقات اجتماعية متنوعة.
يقول الباحثون: "رؤيتنا الرئيسية هي استخدام السياق الاجتماعي الغني من LLMs لإنشاء سلوكيات تعبيرية قابلة للتكيف والتكوين."
الحركة التعبيرية التوليدية (GenEM)
يستخدم GenEM سلسلة من وكلاء LLM الذين يولدون سلوكيات تعبيرية للروبوت بشكل مستقل استنادًا إلى أوامر اللغة الطبيعية. يساهم كل وكيل من خلال التفكير في السياقات الاجتماعية وترجمة هذه السلوكيات إلى استدعاءات واجهة برمجة التطبيقات للروبوت.
يشير الباحثون إلى أن "GenEM يمكنه إنتاج سلوكيات متعددة الأنماط باستخدام قدرات الروبوت—مثل الكلام وحركة الجسم—للتعبير عن النية بوضوح." ويُعدّ "إحدى الميزات البارزة لـ GenEM هي قدرته على التكيف مع ردود الفعل البشرية الحية، مما يسمح بإجراء تحسينات تدريجية وتوليد سلوكيات تعبيرية جديدة."
يبدأ سير عمل GenEM بأمر بلغة طبيعية، إما بتحديد إجراء تعبيري مثل "هز رأسك" أو تحديد سيناريو اجتماعي، مثل "شخص يمشي يلوح لك." في البداية، يستخدم LLM التفكير التسلسلي لتحديد رد فعل محتمل للبشر. ثم يقوم وكيل LLM آخر بترجمة ذلك إلى دليل خطوة بخطوة يعكس وظائف الروبوت المتاحة، موجهًا سلوكيات مثل إمالة الرأس أو تفعيل أنماط ضوئية محددة.
بعد ذلك، يتم تحويل التعليمات الإجرائية إلى رمز قابل للتنفيذ، معتمدًا على أوامر واجهة برمجة التطبيقات الخاصة بالروبوت. يمكن دمج ملاحظات بشرية اختيارية لتحسين السلوك بشكل أكبر، وكل ذلك دون الحاجة لتدريب LLMs—حيث تتطلب فقط تعديلات على التحفيز بناءً على مواصفات الروبوت.
اختبار GenEM
قيم الباحثون السلوكيات التي تم توليدها من نوعين من GenEM—إحداها تشمل ردود فعل المستخدمين والأخرى لا—ضد سلوكيات مكتوبة أعدها مخرج محترف. باستخدام GPT-4 من OpenAI لأغراض التفكير السياقي وتوليد السلوكيات التعبيرية، استطلعت آراء المستخدمين حول النتائج. أظهرت النتائج أن المستخدمين وجدوا عمومًا أن سلوكيات GenEM المولدة متساوية في الوضوح مع سلوكيات المخرج المحترف. علاوة على ذلك، تفوقت الطريقة المعيارية متعددة الخطوات في GenEM بشكل كبير على النهج السابق القائم على نموذج LLM واحد.
تُظهر تصميم GenEM القائم على التحفيز مرونة للتكيف مع أي نوع من الروبوتات دون الحاجة لمجموعات بيانات متخصصة للتدريب. ويستخدم بفعالية التفكير الـ LLM لخلق سلوكيات تعبيرية معقدة من إجراءات روبوتية بسيطة.
يقول الباحثون: "يولد إطار عملنا سلوكيات تعبيرية بسرعة من خلال التعلم في السياق والطلب بعدد قليل من الأمثلة، مما يقلل بشكل كبير من الحاجة إلى مجموعات بيانات مُنسقة أو صنع قواعد معقدة كما كان الحال في الأساليب السابقة."
على الرغم من أنه لا يزال في مراحله المبكرة، تم اختبار GenEM بشكل أساسي في سيناريوهات تفاعلية فردية ومساحات عمل محدودة. هناك إمكانية لاستكشاف الروبوتات التي تتمتع بإجراءات بدائية أكثر تنوعًا، حيث تعد نماذج اللغة الكبيرة بوعد لتعزيز هذه القدرات بشكل أكبر.
يختتم الباحثون بالقول: "نعتقد أن نهجنا يقدم إطار عمل مرن لتوليد حركات تعبيرية قابلة للتكيف والتكوين، مستفيدًا من قوة نماذج اللغة الكبيرة."