تتمتع وكلاء الذكاء الاصطناعي المجسدين القادرين على التفاعل مع العالم الفيزيائي بقدرات هائلة لمجموعة متنوعة من التطبيقات. ومع ذلك، يظل عائق رئيسي: نقص بيانات التدريب.
لمواجهة هذا التحدي، قدم الباحثون من إمبريال كوليدج لندن و Google DeepMind إطار العمل المعروف باسم "الوكلاء المعززين بالانتشار" (DAAG). يهدف هذا النهج الابتكاري إلى استخدام قدرات النماذج اللغوية الكبيرة (LLMs) ونماذج اللغة البصرية (VLMs) ونماذج الانتشار لتعزيز كفاءة التعلم وقدرات نقل المعرفة لدى الوكلاء المجسدين.
لماذا تعتبر كفاءة البيانات مهمة للوكلاء المجسدين؟
أحدثت التطورات الأخيرة في LLMs وVLMs تفاؤلاً كبيراً باستخدامها في الروبوتات والذكاء الاصطناعي المجسد. بينما يمكن تدريب هذه النماذج على مجموعات بيانات ضخمة من النصوص والصور المجمعة من الإنترنت، تحتاج أنظمة الذكاء الاصطناعي المجسد إلى التعلم من التفاعلات الفيزيائية.
تطرح البيئة الحقيقية تحديات خاصة لجمع البيانات في الذكاء الاصطناعي المجسد. فالبيئات الفيزيائية معقدة وغير متوقعة بشكل كبير مقارنة بالعوالم الرقمية. بالإضافة إلى ذلك، تعتمد الروبوتات وغيرها من أشكال الذكاء الاصطناعي المجسد على أجهزة استشعار ومحركات يمكن أن تكون بطيئة أو مليئة بالضوضاء أو عرضة للفشل.
يؤكد الباحثون أن التغلب على هذه التحديات يكمن في تحسين استخدام البيانات والتجارب الحالية للوكيل. يقولون: "نفترض أن الوكلاء المجسدين يمكن أن يحققوا كفاءة أكبر في البيانات من خلال الاستفادة من التجارب السابقة للاستكشاف بفاعلية ونقل المعرفة عبر المهام."
ما هو DAAG؟
إطار "الوكلاء المعززين بالانتشار" (DAAG) مصمم لتمكين الوكلاء من تعلم المهام بفاعلية أكبر من خلال الاستفادة من التجارب السابقة وتوليد بيانات صناعية. يهدف الباحثون إلى مساعدة الوكلاء على تحديد وتقييم الأهداف الفرعية بشكل مستقل، حتى بدون مكافآت خارجية، مع إعادة استخدام تجاربهم السابقة لتسريع التعلم في المهام الجديدة.
يعمل DAAG ضمن عملية اتخاذ قرار ماركوف (MDP). في بداية كل حلقة، يتلقى الوكيل توجيهات المهام، ويرصد بيئته، وينفذ أفعالًا للوصول إلى حالة تتماشى مع هذه التوجيهات. يتميز بوجود نوعين من ذاكرة التخزين: واحدة محددة للمهام للأحداث الحالية و"ذاكرة دائمة غير متصلة بالإنترنت" لجميع التجارب السابقة، بغض النظر عن المهام أو النتائج.
يجمع DAAG بين نقاط القوة في LLMs وVLMs ونماذج الانتشار لإنشاء وكلاء قادرين على التفكير، وتحليل البيئات، والتعلم الفعال لأهداف جديدة من خلال إعادة استخدام التجارب السابقة. يعمل LLM كالمتحكم المركزي، حيث يفسر توجيهات المهام الجديدة، ويفككها إلى أهداف فرعية، وينسق مع VLM ونموذج الانتشار لتحقيق الأهداف.
لزيادة الاستفادة من التجارب السابقة، يعتمد DAAG طريقة تُعرف باسم “تعزيز التجربة من منظور الماضي” (HEA). تقوم VLM بمعالجة الملاحظات البصرية في ذاكرة التجارب ومقارنتها مع الأهداف الفرعية المطلوبة، مما يُعزز ذاكرة الوكيل بالملاحظات ذات الصلة. إذا كانت التجارب ذات الصلة مفقودة، يقوم نموذج الانتشار بتوليد بيانات صناعية لمساعدة الوكيل في تصور النتائج المحتملة، مما يتيح الاستكشاف دون الحاجة إلى تفاعل جسدي مباشر.
"من خلال HEA، يمكننا زيادة عدد الحلقات الناجحة التي يتم تخزينها في ذاكرات الوكيل اصطناعياً، مما يسمح بإعادة استخدام البيانات بشكل فعال وزيادة الكفاءة بشكل ملحوظ، وخاصة عند تعلم مهام متعددة بشكل متتابع"، يوضح الباحثون.
يصفون DAAG وHEA كعملية مستقلة تعمل دون إشراف بشري، مستفيدة من الاتساق الهندسي والزماني لتوليد ملاحظات معززة موثوقة.
ما هي فوائد DAAG؟
في تقييماتهم عبر عدة معايير وبيئات محاكاة، وجد الباحثون أن DAAG تتفوق بشكل كبير على أنظمة التعلم المعزز التقليدية في مهام مثل التنقل والتلاعب بالأجسام. ومن الملحوظ أن الوكلاء المدعومين بـ DAAG حققوا الأهداف حتى بدون مكافآت صريحة، ووصلوا إلى الأهداف بشكل أسرع، واحتاجوا إلى تفاعل أقل مع البيئة مقارنة بالوكلاء غير المدعومين بـ DAAG.
يتفوق الإطار في إعادة استخدام البيانات من المهام السابقة، مما يسهل التعلم السريع لأهداف جديدة. تعتبر القدرة على نقل المعرفة بين المهام ضرورية لإنشاء وكلاء قادرين على التعلم المستمر والتكيف. تُعزز فعالية DAAG في تحسين التعلم الانتقالي من إمكانية تطوير روبوتات وأنظمة ذكاء اصطناعي مجسدة أكثر مرونة وقوة.
"تشير هذه النتائج إلى آفاق واعدة لمعالجة ندرة البيانات في التعلم الروبوتي ولتطوير وكلاء ذوي قدرات أوسع"، تختتم الدراسة.