قدم العلماء في جامعة كاليفورنيا، بركلي، تقنية جديدة في تعلم الآلة تعرف باسم "التعلم المعزز عبر تغذية التدخل" (RLIF). هذا النهج المبتكر يسهل تدريب أنظمة الذكاء الاصطناعي في بيئات معقدة.
يجمع RLIF بين التعلم المعزز والتعلم بالتقليد التفاعلي، وهما طريقتان أساسيتان في تدريب الذكاء الاصطناعي. ويعتبر مفيدًا بشكل خاص في السيناريوهات التي تكون فيها إشارات المكافأة نادرة واستجابة البشر غير دقيقة، وهو تحدٍ شائع في تدريب الروبوتات.
فهم التقنيات: التعلم المعزز والتعلم بالتقليد
يتألق التعلم المعزز في البيئات ذات وظائف المكافأة الواضحة، مما يجعله فعالًا في التحكم الأمثل، والألعاب، وتوافق نماذج اللغة الكبيرة مع تفضيلات البشر. ومع ذلك، فإنه يواجه صعوبات في الروبوتات، حيث غالبًا ما تفتقر الأهداف المعقدة إلى إشارات مكافأة صريحة.
هنا، يلجأ المهندسون إلى التعلم بالتقليد، وهو فرع من التعلم المُراقب الذي يلغي الحاجة إلى إشارات المكافأة. بدلاً من ذلك، يقوم بتدريب النماذج استنادًا إلى العروض التي يقدمها البشر. على سبيل المثال، قد يوجه إنسان ذراعًا روبوتية للتلاعب بشيء ما، موفرًا مثالًا بصريًا للذكاء الاصطناعي ليقلده. يعتبر الوكيل هذه العروض كبيانات تدريب.
لكن، ورغم فوائده، يواجه التعلم بالتقليد تحديات، خاصةً "مشكلة عدم تطابق التوزيع". تحدث هذه المشكلة عندما يواجه الوكلاء سيناريوهات خارج أمثلة تدريبهم، مما يؤدي إلى انخفاض الأداء. يعالج التعلم بالتقليد التفاعلي هذه القضية من خلال تمكين الخبراء من تقديم تغذية راجعة في الوقت الحقيقي، وتصحيح سلوك الوكيل عندما ينحرف عن المسار المرغوب. ومع ذلك، غالبًا ما يعتمد هذا الأسلوب على التدخلات المثلى، التي قد لا تكون متاحة دائمًا، لا سيما في الروبوتات حيث يمكن أن تختلف دقة البشر.
دمج الأساليب: التعلم المعزز والتعلم بالتقليد
يقترح باحثو جامعة كاليفورنيا، بركلي نموذجًا هجينيًا يجمع بين نقاط قوة التعلم المعزز والتعلم بالتقليد التفاعلي. يعتمد RLIF على فكرة أن التعرف على الأخطاء غالبًا ما يكون أسهل من تنفيذ تصحيحات مثالية.
في المهام المعقدة مثل القيادة الذاتية، على سبيل المثال، يُشير التدخل (مثل استخدام المكابح فجأة) إلى انحراف، لكنه لا يقدم نموذج استجابة مثالي. يجب أن يركز وكيل RL ليس على تقليد الفعل، بل على تجنب الظروف التي أدت إلى التدخل.
"يمكن أن يوفر قرار التدخل خلال حلقة التقليد التفاعلي إشارة مكافأة للتعلم المعزز"، كما يذكر الباحثون. وهذا يسمح لأساليب RL بالعمل تحت افتراضات مشابهة ولكنها أكثر مرونة كتلك المستخدمة في التعلم بالتقليد التفاعلي، مستفيدة من تدخلات البشر دون افتراض أنها مثالية.
يدرب RLIF الوكلاء بمزيج من العروض والتدخلات التفاعلية، لكنهم يعتبرون هذه التدخلات كمؤشرات على الأخطاء المحتملة بدلاً من أدلة نهائية للعمل المثالي.
“نتوقع أن يكون الخبراء أكثر ميلًا للتدخل عندما ترتكب السياسة المدربة أعمالًا دون المستوى الأمثل”، أضاف الباحثون، مؤكدين أن التدخلات تعد إشارات قيمة لتعديل سلوك الذكاء الاصطناعي.
اختبار RLIF
قامت فريق U.C. Berkeley بتقييم RLIF مقارنةً بـ DAgger، وهو خوارزمية بارزة للتعلم بالتقليد التفاعلي. في البيئات المحاكاة، تفوق RLIF على أفضل متغيرات DAgger بمعدل يتراوح بين مرتين إلى ثلاث مرات، وامتد هذا الفرق ليصل إلى خمس مرات عندما كانت التدخلات من الخبراء غير مثالية.
اختبارات العالم الحقيقي التي شملت تحديات روبوتية، مثل التلاعب بالأجسام وطوي القماش، أكدت أيضاً على قوة RLIF وملاءمته في المواقف العملية.
بينما يواجه RLIF بعض التحديات مثل احتياجات البيانات الكبيرة وتعقيدات النشر في الوقت الفعلي، فإنه يحمل وعدًا كبيرًا في تدريب أنظمة الروبوتات المتقدمة في مجموعة متنوعة من التطبيقات، مما يجعله أداة تحوّل في مجال الذكاء الاصطناعي.