تعلم التعزيز القائم على إشارات البشر: نهج مبتكر لتصحيح الأخطاء في أنظمة الذكاء الاصطناعي

Home أخبار الذكاء الاصطناعي تعلم التعزيز القائم على إشارات البشر: نهج مبتكر لتصحيح الأخطاء في أنظمة الذكاء الاصطناعي

Updated on ديسمبر 5 2023

قدم العلماء في جامعة كاليفورنيا، بركلي، تقنية جديدة في تعلم الآلة تعرف باسم "التعلم المعزز عبر تغذية التدخل" (RLIF). هذا النهج المبتكر يسهل تدريب أنظمة الذكاء الاصطناعي في بيئات معقدة.

يجمع RLIF بين التعلم المعزز والتعلم بالتقليد التفاعلي، وهما طريقتان أساسيتان في تدريب الذكاء الاصطناعي. ويعتبر مفيدًا بشكل خاص في السيناريوهات التي تكون فيها إشارات المكافأة نادرة واستجابة البشر غير دقيقة، وهو تحدٍ شائع في تدريب الروبوتات.

فهم التقنيات: التعلم المعزز والتعلم بالتقليد

يتألق التعلم المعزز في البيئات ذات وظائف المكافأة الواضحة، مما يجعله فعالًا في التحكم الأمثل، والألعاب، وتوافق نماذج اللغة الكبيرة مع تفضيلات البشر. ومع ذلك، فإنه يواجه صعوبات في الروبوتات، حيث غالبًا ما تفتقر الأهداف المعقدة إلى إشارات مكافأة صريحة.

هنا، يلجأ المهندسون إلى التعلم بالتقليد، وهو فرع من التعلم المُراقب الذي يلغي الحاجة إلى إشارات المكافأة. بدلاً من ذلك، يقوم بتدريب النماذج استنادًا إلى العروض التي يقدمها البشر. على سبيل المثال، قد يوجه إنسان ذراعًا روبوتية للتلاعب بشيء ما، موفرًا مثالًا بصريًا للذكاء الاصطناعي ليقلده. يعتبر الوكيل هذه العروض كبيانات تدريب.

لكن، ورغم فوائده، يواجه التعلم بالتقليد تحديات، خاصةً "مشكلة عدم تطابق التوزيع". تحدث هذه المشكلة عندما يواجه الوكلاء سيناريوهات خارج أمثلة تدريبهم، مما يؤدي إلى انخفاض الأداء. يعالج التعلم بالتقليد التفاعلي هذه القضية من خلال تمكين الخبراء من تقديم تغذية راجعة في الوقت الحقيقي، وتصحيح سلوك الوكيل عندما ينحرف عن المسار المرغوب. ومع ذلك، غالبًا ما يعتمد هذا الأسلوب على التدخلات المثلى، التي قد لا تكون متاحة دائمًا، لا سيما في الروبوتات حيث يمكن أن تختلف دقة البشر.

دمج الأساليب: التعلم المعزز والتعلم بالتقليد

يقترح باحثو جامعة كاليفورنيا، بركلي نموذجًا هجينيًا يجمع بين نقاط قوة التعلم المعزز والتعلم بالتقليد التفاعلي. يعتمد RLIF على فكرة أن التعرف على الأخطاء غالبًا ما يكون أسهل من تنفيذ تصحيحات مثالية.

في المهام المعقدة مثل القيادة الذاتية، على سبيل المثال، يُشير التدخل (مثل استخدام المكابح فجأة) إلى انحراف، لكنه لا يقدم نموذج استجابة مثالي. يجب أن يركز وكيل RL ليس على تقليد الفعل، بل على تجنب الظروف التي أدت إلى التدخل.

"يمكن أن يوفر قرار التدخل خلال حلقة التقليد التفاعلي إشارة مكافأة للتعلم المعزز"، كما يذكر الباحثون. وهذا يسمح لأساليب RL بالعمل تحت افتراضات مشابهة ولكنها أكثر مرونة كتلك المستخدمة في التعلم بالتقليد التفاعلي، مستفيدة من تدخلات البشر دون افتراض أنها مثالية.

يدرب RLIF الوكلاء بمزيج من العروض والتدخلات التفاعلية، لكنهم يعتبرون هذه التدخلات كمؤشرات على الأخطاء المحتملة بدلاً من أدلة نهائية للعمل المثالي.

“نتوقع أن يكون الخبراء أكثر ميلًا للتدخل عندما ترتكب السياسة المدربة أعمالًا دون المستوى الأمثل”، أضاف الباحثون، مؤكدين أن التدخلات تعد إشارات قيمة لتعديل سلوك الذكاء الاصطناعي.

اختبار RLIF

قامت فريق U.C. Berkeley بتقييم RLIF مقارنةً بـ DAgger، وهو خوارزمية بارزة للتعلم بالتقليد التفاعلي. في البيئات المحاكاة، تفوق RLIF على أفضل متغيرات DAgger بمعدل يتراوح بين مرتين إلى ثلاث مرات، وامتد هذا الفرق ليصل إلى خمس مرات عندما كانت التدخلات من الخبراء غير مثالية.

اختبارات العالم الحقيقي التي شملت تحديات روبوتية، مثل التلاعب بالأجسام وطوي القماش، أكدت أيضاً على قوة RLIF وملاءمته في المواقف العملية.

بينما يواجه RLIF بعض التحديات مثل احتياجات البيانات الكبيرة وتعقيدات النشر في الوقت الفعلي، فإنه يحمل وعدًا كبيرًا في تدريب أنظمة الروبوتات المتقدمة في مجموعة متنوعة من التطبيقات، مما يجعله أداة تحوّل في مجال الذكاء الاصطناعي.

عالم الفلك يحسن Apache Airflow لأداة تنظيم البيانات في تطبيقات الذكاء الاصطناعي

تقدم Visual Electric أداة ثورية لتحويل توليد الفن باستخدام الذكاء الاصطناعي بعيدًا عن واجهات الدردشة.

Most people like

MusicHero.ai

876.5K

في عصر يستمر فيه التكنولوجيا في إعادة تعريف الإبداع، يقوم مولد الموسيقى المعتمد على الذكاء الاصطناعي بتحويل النصوص إلى مؤلفات موسيقية ثورية في صناعة الموسيقى. يتيح هذا الأداة المبتكرة للمستخدمين تحويل الأفكار المكتوبة أو القصص أو المشاعر إلى ألحان أصلية، مما يربط بين اللغة والصوت. سواء كنت موسيقيًا محترفًا أو مبدعًا ناشئًا، تفتح هذه التقنية المدفوعة بالذكاء الاصطناعي آفاقًا جديدة مثيرة للتعبير الفني. اكتشف كيف يمكن لمولد الموسيقى القوي هذا أن يلهم إبداعك، ويسهل سير عملك، ويعزز مشاريعك الموسيقية.

مولد موسيقى ذكية AI Music Generator

SwapFans

29.7K

حوّل مقاطع الفيديو الخاصة بك على وسائل التواصل الاجتماعي باستخدام تقنية كشف الوجه المدعومة بالذكاء الاصطناعي استفِد من قوة الذكاء الاصطناعي من خلال تبديل الوجوه بسلاسة في مقاطع الفيديو الخاصة بك على وسائل التواصل الاجتماعي. عزز محتواك واجذب جمهورك كما لم يحدث من قبل مع أداتنا المبتكرة لتبديل الوجوه. اكتشف مدى سهولة إنشاء مقاطع فيديو ممتعة وقابلة للمشاركة تأسر الانتباه وتعزز التفاعل عبر المنصات.

أخرى AI Video Generator

NSFW AI Chat

35.6K

تفاعل مع ذكاء اصطناعي مصمم لإنشاء صور ذات محتوى غير مناسب للعمل، مما يتيح لك استكشاف ميولك الجنسية في بيئة آمنة وخاصة.

دردشة ذكاء اصطناعي غير مناسبة للعمل AI Girlfriend

Hammer

54.3K

تفاعل مع المشترين على مدار الساعة من خلال ردود مدعومة بالذكاء الاصطناعي.

الذكاء الاصطناعي AI Reply Assistant

Find AI tools in YBX