تستخدم GenEM من DeepMind نماذج اللغة الكبيرة لإنشاء سلوكيات تعبيرية للروبوتات.

Home أخبار الذكاء الاصطناعي تستخدم GenEM من DeepMind نماذج اللغة الكبيرة لإنشاء سلوكيات تعبيرية للروبوتات.

Updated on فبراير 5 2024

يستخدم البشر بشكل متكرر سلوكيات تعبيرية للتعبير عن الأهداف والنوايا. على سبيل المثال، نُومئ برؤوسنا لتحية زميل عمل، ونهزها للدلالة على عدم الموافقة، أو نقول "آسف" لنتمكن من المرور عبر حشد. لتسهيل التفاعلات السلسة مع البشر، يجب على الروبوتات المتنقلة أيضًا أن تظهر سلوكيات تعبيرية مشابهة. ومع ذلك، لا تزال هذه التحديات كبيرة في مجال الروبوتات، وغالبًا ما تفتقر الحلول الموجودة إلى المرونة والقابلية للتكيف.

قدمت دراسة رائدة من باحثين من جامعة تورنتو وGoogle DeepMind وHoku Labs تقنية جديدة تُسمى GenEM، التي تستخدم السياقات الاجتماعية الواسعة الموجودة في نماذج اللغة الكبيرة (LLMs) لتمكين الروبوتات من تنفيذ سلوكيات تعبيرية. من خلال استخدام أساليب تحفيز متنوعة، يتيح GenEM للروبوتات تفسير بيئتها وتكرار التعبيرات البشرية بشكل فعال.

السلوكيات التعبيرية في الروبوتات

تقليديًا، كان إنشاء سلوكيات تعبيرية للروبوت يتطلب أنظمة قائمة على القواعد أو القوالب، مما يتطلب إدخالاً يدويًا كبيرًا لكل روبوت وبيئة. تعني هذه الصلابة أن أي تغييرات أو تعديلات تستلزم إعادة برمجة شاملة. في حين أن التقنيات الحديثة قد اتجهت نحو أساليب قائمة على البيانات تقدم مرونة أكبر، إلا أن هذه الأساليب تحتاج غالبًا إلى مجموعات بيانات متخصصة تتناسب مع تفاعلات كل روبوت.

يُعيد GenEM تشكيل هذا النهج من خلال الاستفادة من المعرفة الغنية الموجودة في LLMs لتوليد سلوكيات تعبيرية بشكل ديناميكي، مما يلغي الحاجة إلى تدريب تقليدي للنموذج أو مجموعات قواعد معقدة. على سبيل المثال، يمكن لـ LLMs التعرف على أهمية الاتصال بالعين أو الإيماء في سياقات اجتماعية متنوعة.

يقول الباحثون: "رؤيتنا الرئيسية هي استخدام السياق الاجتماعي الغني من LLMs لإنشاء سلوكيات تعبيرية قابلة للتكيف والتكوين."

الحركة التعبيرية التوليدية (GenEM)

يستخدم GenEM سلسلة من وكلاء LLM الذين يولدون سلوكيات تعبيرية للروبوت بشكل مستقل استنادًا إلى أوامر اللغة الطبيعية. يساهم كل وكيل من خلال التفكير في السياقات الاجتماعية وترجمة هذه السلوكيات إلى استدعاءات واجهة برمجة التطبيقات للروبوت.

يشير الباحثون إلى أن "GenEM يمكنه إنتاج سلوكيات متعددة الأنماط باستخدام قدرات الروبوت—مثل الكلام وحركة الجسم—للتعبير عن النية بوضوح." ويُعدّ "إحدى الميزات البارزة لـ GenEM هي قدرته على التكيف مع ردود الفعل البشرية الحية، مما يسمح بإجراء تحسينات تدريجية وتوليد سلوكيات تعبيرية جديدة."

يبدأ سير عمل GenEM بأمر بلغة طبيعية، إما بتحديد إجراء تعبيري مثل "هز رأسك" أو تحديد سيناريو اجتماعي، مثل "شخص يمشي يلوح لك." في البداية، يستخدم LLM التفكير التسلسلي لتحديد رد فعل محتمل للبشر. ثم يقوم وكيل LLM آخر بترجمة ذلك إلى دليل خطوة بخطوة يعكس وظائف الروبوت المتاحة، موجهًا سلوكيات مثل إمالة الرأس أو تفعيل أنماط ضوئية محددة.

بعد ذلك، يتم تحويل التعليمات الإجرائية إلى رمز قابل للتنفيذ، معتمدًا على أوامر واجهة برمجة التطبيقات الخاصة بالروبوت. يمكن دمج ملاحظات بشرية اختيارية لتحسين السلوك بشكل أكبر، وكل ذلك دون الحاجة لتدريب LLMs—حيث تتطلب فقط تعديلات على التحفيز بناءً على مواصفات الروبوت.

اختبار GenEM

قيم الباحثون السلوكيات التي تم توليدها من نوعين من GenEM—إحداها تشمل ردود فعل المستخدمين والأخرى لا—ضد سلوكيات مكتوبة أعدها مخرج محترف. باستخدام GPT-4 من OpenAI لأغراض التفكير السياقي وتوليد السلوكيات التعبيرية، استطلعت آراء المستخدمين حول النتائج. أظهرت النتائج أن المستخدمين وجدوا عمومًا أن سلوكيات GenEM المولدة متساوية في الوضوح مع سلوكيات المخرج المحترف. علاوة على ذلك، تفوقت الطريقة المعيارية متعددة الخطوات في GenEM بشكل كبير على النهج السابق القائم على نموذج LLM واحد.

تُظهر تصميم GenEM القائم على التحفيز مرونة للتكيف مع أي نوع من الروبوتات دون الحاجة لمجموعات بيانات متخصصة للتدريب. ويستخدم بفعالية التفكير الـ LLM لخلق سلوكيات تعبيرية معقدة من إجراءات روبوتية بسيطة.

يقول الباحثون: "يولد إطار عملنا سلوكيات تعبيرية بسرعة من خلال التعلم في السياق والطلب بعدد قليل من الأمثلة، مما يقلل بشكل كبير من الحاجة إلى مجموعات بيانات مُنسقة أو صنع قواعد معقدة كما كان الحال في الأساليب السابقة."

على الرغم من أنه لا يزال في مراحله المبكرة، تم اختبار GenEM بشكل أساسي في سيناريوهات تفاعلية فردية ومساحات عمل محدودة. هناك إمكانية لاستكشاف الروبوتات التي تتمتع بإجراءات بدائية أكثر تنوعًا، حيث تعد نماذج اللغة الكبيرة بوعد لتعزيز هذه القدرات بشكل أكبر.

يختتم الباحثون بالقول: "نعتقد أن نهجنا يقدم إطار عمل مرن لتوليد حركات تعبيرية قابلة للتكيف والتكوين، مستفيدًا من قوة نماذج اللغة الكبيرة."

إيه إم دي تقدم معمارية Embedded+ التي تحدث ثورة في أجهزة الذكاء الاصطناعي على حافة الشبكة

رؤية Menlo Ventures: تشكيل مستقبل أمان الذكاء الاصطناعي

Most people like

BarRaiser

112K

نقدم لكم منصة ذكاء اصطناعي مدفوعة للمقابلات تهدف إلى تحسين عملية التوظيف الخاصة بك. هذه الأداة المبتكرة تستفيد من قوة الذكاء الاصطناعي لتعزيز تقييم المرشحين، وتبسيط المقابلات، وتحسين نتائج التوظيف. مع ميزاتها المتطورة، تقوم منصتنا بتحويل أساليب التوظيف التقليدية إلى تجربة أكثر كفاءة وعمقًا، مما يضمن لك العثور على أفضل المواهب بسرعة ودقة. انضم إلينا في ثورة مشهد التوظيف بتقنية الذكاء الاصطناعي المتطورة.

مقابلة AI Interview Assistant

ReRoom AI - Photorealistic Renders for Interior Design

46.6K

ReRoom AI يمكّن المستخدمين من إنشاء صور فوتوغرافية واقعية لمشاريع التصميم الداخلي بسهولة باستخدام SketchUp. حوّل تصاميمك إلى تصورات مذهلة تأسر العملاء وتعزز العروض التقديمية بفضل هذه الأداة القوية.

تصميم داخلي AI Interior & Room Design

Wisp CMS

12.6K

استمتع بتجربة نظام إدارة محتوى بلوق متميز مصمم لتسهيل إدارة المحتوى ومشاركته بشكل سلس. عزز رحلتك في التدوين مع أدوات سهلة الاستخدام تجعل من عملية الإنشاء والتوزيع بسيطة. يلائم هذا النظام جميع مستويات المدونين، حيث يعمل على تحسين سير العمل لديك بينما يشرك جمهورك بفاعلية.

نظام إدارة محتوى التدوين AI Blog Writer

Danelfin

208.7K

اكتشف الأسهم ذات الأداء العالي وطور محافظ استثماراتك باستخدام رؤى مدعومة بالذكاء الاصطناعي وسهلة الفهم.

تحليلات الأسهم AI Analytics Assistant

Find AI tools in YBX